clasificaci´on mediante conjuntos - Escuela Politécnica Superior

More documents

Recommendations

Info

12 CAPÍTULO 2. CLASIFICACIÓN<strong>conjuntos</strong> de clasificadores, que son el tema central de esta tesis, pueden ser consideradoscomo meta-clasificadores ya que no generan una hipótesis directamente sino quecombinan las hipótesis obtenidas por otros algoritmos de clasificación [Wolpert, 1990;Freund y Schapire, 1995; Breiman, 1996a; Quinlan, 1996a]. En este capítulo se describeel funcionamiento de los árboles de decisión, que es el algoritmo de clasificación utilizadocomo base en este trabajo. En particular, se presenta en detalle el funcionamiento del algoritmode creación de árboles CART, [Breiman et al., 1984] y más someramente el algoritmode construcción de árboles de decisión C4.5 [Quinlan, 1993].Antes de describir los árboles de decisión, es oportuno hacer una breve descripción delas teorías estadísticas en las que se basan los algoritmos de resolución de problemas declasificación y, más concretamente de la teoría de decisión de Bayes. Esta teoría parte dela hipótesis de que los problemas de clasificación se pueden analizar en términos probabilísticos.Consideremos un problema de clasificación en el que no se conoce el valor deninguno de los atributos x. ¿Cómo clasificaríamos un objeto del que no se conocen susatributos pero sí las probabilidades a priori de pertenencia a una clase? Si debemos tomaruna decisión lo mejor es optar por la clase más probable. Por ejemplo si un médico sabeque, para una enfermedad dada, el porcentaje de personas que sobreviven es del 90 % yle preguntan (sin conocer los resultados de los análisis) si un paciente concreto con dichaenfermedad sobrevivirá, el médico puede decir que es probable que sí. Esta cuantificaciónde la fiabilidad del diagnóstico en ausencia de otra evidencia se denomina probabilidad apriori y la denotaremos por P (j), donde j es el índice de la clase. La regla de decisión óptimapara cuando no se conoce ningún atributo del objeto pero se conocen las probabilidadesa priori de las clases a clasificar queda expresada matemáticamente comoj optima = argmaxjP (j) . (2.2)Sin embargo en la mayoría de casos disponemos de más información para tomar unadecisión. Un médico normalmente espera a conocer los resultados de los análisis para pronunciarsesobre un paciente concreto. Por tanto lo que realmente se quiere conocer es laprobabilidad de pertenecer a cada una de las clases dado un valor para el vector de atributos,es decir, la probabilidad a posteriori P (j|x). Consideremos que el vector de atributosx es una variable aleatoria cuya distribución en el espacio de atributos depende de la clasea la que pertenece. Definamos la distribución p(x|j) como la función de densidad de probabilidadpara x dada la clase j. La probabilidad a posteriori se puede calcular a partir dep(x|j) y de las probabilidades a priori P (j) <strong>mediante</strong> la regla de BayesP (j|x) =p(x|j)P (j)p(x)(2.3)
2.1. CLASIFICACIÓN SUPERVISADA Y TEORÍA DE BAYES 13dondep(x) =C∑p(x|j)P (j) . (2.4)j=1El criterio que minimiza la probabilidad de equivocarse tomando una decisión es escogeraquella clase que sea más probable para un vector de atributos x, es decirDecidir j si P (j|x) > P (k|x) para todo k ≠ j . (2.5)Para un conjunto de datos se minimiza la probabilidad de error si y sólo si tomamoslas decisiones de acuerdo con la ec. (2.5). Esta probabilidad mínima de error se denominaerror de Bayes.Para entender por qué el error de Bayes es el error mínimo alcanzable para cualquierproblema de clasificación consideremos un problema de decisión unidimensional con xcomo único atributo y con dos posibles clases 1 y 2. El clasificador divide el espacio en dosregiones R 1 y R 2 a las que asigna la clase 1 e 2 respectivamente. Por tanto el clasificadorcometerá un error para la observación x si x ∈ R 1 y x es de clase 2 o si x ∈ R 2 y xes de clase 1. La probabilidad de error para una clase j es el resultado de multiplicar laprobabilidad con que aparece dicha clase (probabilidad a priori P (j)) por la probabilidadcon que aparece la clase en la región R k , donde el clasificador predice k con k ≠ j,esto es P (x ∈ R k |j) (no confundir con la distribución de probabilidad p(x|j) para la queutilizamos una notación con p minúscula). La probabilidad de error total esP (error) = P (x ∈ R 1 |2)P (2) + P (x ∈ R 2 |1)P (1) =∫∫= p(x|2)P (2)dx + p(x|1)P (1)dx . (2.6)R 1 R 2En la construcción gráfica realizada en la figura 2.1 se observa que el valor P (error)alcanza su mínimo cuando la división entre las regiones R 1 y R 2 se hace para x = x bayesya que la región más obscura de la figura 2.1 no entra en la integral. Asimismo, se puedever cómo es imposible reducir el error a cero, ya que hay intervalos (zonas rayadas en lafigura 2.1) donde un mismo valor de x puede corresponder a dos clases y por tanto lo únicoque se puede hacer es intentar minimizar la probabilidad de error según el resultado de laec. (2.5).En problemas reales el obtener la frontera óptima de división entre clases casi nunca estarea fácil. En estos casos, generalmente, se puede estimar con cierta precisión las probabilidadesa priori P (j), pero no es fácil deducir las distribuciones de probabilidad de lasclases p(x|j) a partir de unos datos de entrenamiento limitados. El objetivo, por tanto, de laclasificación supervisada es construir un clasificador a partir de unos datos de entrenamientoetiquetados cuyo error sea lo menor posible, siendo el error de Bayes la cota inferior dedicho error.
Page 1: Universidad Autónoma de MadridEscu
Page 5 and 6: AgradecimientosAgradezco muy sincer
Page 7 and 8: Índice generalAgradecimientosV1. I
Page 9: A.1.12. Sonar . . . . . . . . . . .
Page 12 and 13: 4.5. Número medio de clasificadore
Page 14 and 15: 3.5. Pseudocódigo de comités IGP
Page 17 and 18: Capítulo 1IntroducciónUn clasific
Page 19 and 20: 3aparecen en el problema concreto d
Page 21 and 22: 5donde se realizan, etc [Dorronsoro
Page 23 and 24: 7algoritmo genera un árbol de deci
Page 25 and 26: de construcción de conjuntos de cl
Page 27: Capítulo 2Clasificación2.1. Clasi
Page 31 and 32: 2.2. ÁRBOLES DE DECISIÓN: CART Y
Page 41 and 42: 2.3. CONJUNTOS DE CLASIFICADORES 25
Page 47 and 48: 2.4. ANÁLISIS DE SU FUNCIONAMIENTO
Page 55 and 56: 2.5. BAGGING Y BOSQUES ALEATORIOS 3
Page 57 and 58: 2.6. BOOSTING 41ni de los ejemplos
Page 59 and 60: 2.6. BOOSTING 43la decisión del co
Page 61 and 62: 2.6. BOOSTING 45el agotamiento tamb
Page 63 and 64: 2.7. OTROS CONJUNTOS DE CLASIFICADO
Page 65: Parte INuevos conjuntos de clasific
Page 68 and 69: 52 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
Page 78 and 79:
62 CAPÍTULO 3. CONJUNTOS DE ÁRBOL
Page 80 and 81:
Page 82 and 83:
Page 84 and 85:
Page 86 and 87:
Page 88 and 89:
72 CAPÍTULO 4. ALTERACIÓN DE ETIQ
Page 90 and 91:
Page 92 and 93:
Page 94 and 95:
Page 96 and 97:
Page 98 and 99:
Page 100 and 101:
Cuadro 4.3: Resumen de registros vi
Page 102 and 103:
Page 104 and 105:
Page 106 and 107:
Page 108 and 109:
Page 111 and 112:
Capítulo 5Orden de agregación y p
Page 113 and 114:
5.2. ORDENACIÓN DE CLASIFICADORES
Page 115 and 116:
5.2. ORDENACIÓN DE CLASIFICADORES
Page 117 and 118:
5.3. OTROS TRABAJOS RELACIONADOS 10
Page 119 and 120:
5.4. ALGORITMOS DE ORDENACIÓN 103c
Page 121 and 122:
5.4. ALGORITMOS DE ORDENACIÓN 105M
Page 123 and 124:
5.4. ALGORITMOS DE ORDENACIÓN 107F
Page 125 and 126:
5.4. ALGORITMOS DE ORDENACIÓN 1093
Page 127 and 128:
5.4. ALGORITMOS DE ORDENACIÓN 111n
Page 129 and 130:
5.4. ALGORITMOS DE ORDENACIÓN 113o
Page 131 and 132:
5.4. ALGORITMOS DE ORDENACIÓN 115s
Page 133 and 134:
5.4. ALGORITMOS DE ORDENACIÓN 1171
Page 135 and 136:
5.5. RESULTADOS EXPERIMENTALES 119L
Page 137 and 138:
5.5. RESULTADOS EXPERIMENTALES 1210
Page 139 and 140:
5.5. RESULTADOS EXPERIMENTALES 123p
Page 141 and 142:
Page 143 and 144:
Page 145 and 146:
Page 147 and 148:
Cuadro 5.7: Media del error de entr
Page 149 and 150:
Cuadro 5.9: Prueba-t para comparar
Page 151 and 152:
5.6. CONCLUSIONES 135Cuadro 5.10: T
Page 153 and 154:
Capítulo 6Conclusiones y trabajo f
Page 155 and 156:
139primeros elementos de acuerdo co
Page 157 and 158:
Apéndice ADescripción de los conj
Page 159 and 160:
143A.1.4.Pima Indian DiabetesPima I
Page 161 and 162:
145A.1.8.IonosphereIonosphereReposi
Page 163 and 164:
147A.1.12.SonarSonarRepositorio UCI
Page 165 and 166:
149A.1.16.VehicleVehicle silhouette
Page 167 and 168:
151A.1.19.WineWineRepositorio UCI(F
Page 169 and 170:
Bibliografía[Aha et al., 1991] Dav
Page 171 and 172:
BIBLIOGRAFÍA 155[Dietterich y Kong
Page 173 and 174:
BIBLIOGRAFÍA 157[Haskell et al., 2
Page 175 and 176:
BIBLIOGRAFÍA 159[Martínez-Muñoz
Page 177 and 178:
BIBLIOGRAFÍA 161[Schapire et al.,
show all

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

Create successful ePaper yourself

Delete template?

Save as template?