13.07.2015 Views

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

12 CAPÍTULO 2. CLASIFICACIÓN<strong>conjuntos</strong> de clasificadores, que son el tema central de esta tesis, pueden ser consideradoscomo meta-clasificadores ya que no generan una hipótesis directamente sino quecombinan las hipótesis obtenidas por otros algoritmos de clasificación [Wolpert, 1990;Freund y Schapire, 1995; Breiman, 1996a; Quinlan, 1996a]. En este capítulo se describeel funcionamiento de los árboles de decisión, que es el algoritmo de clasificación utilizadocomo base en este trabajo. En particular, se presenta en detalle el funcionamiento del algoritmode creación de árboles CART, [Breiman et al., 1984] y más someramente el algoritmode construcción de árboles de decisión C4.5 [Quinlan, 1993].Antes de describir los árboles de decisión, es oportuno hacer una breve descripción delas teorías estadísticas en las que se basan los algoritmos de resolución de problemas declasificación y, más concretamente de la teoría de decisión de Bayes. Esta teoría parte dela hipótesis de que los problemas de clasificación se pueden analizar en términos probabilísticos.Consideremos un problema de clasificación en el que no se conoce el valor deninguno de los atributos x. ¿Cómo clasificaríamos un objeto del que no se conocen susatributos pero sí las probabilidades a priori de pertenencia a una clase? Si debemos tomaruna decisión lo mejor es optar por la clase más probable. Por ejemplo si un médico sabeque, para una enfermedad dada, el porcentaje de personas que sobreviven es del 90 % yle preguntan (sin conocer los resultados de los análisis) si un paciente concreto con dichaenfermedad sobrevivirá, el médico puede decir que es probable que sí. Esta cuantificaciónde la fiabilidad del diagnóstico en ausencia de otra evidencia se denomina probabilidad apriori y la denotaremos por P (j), donde j es el índice de la clase. La regla de decisión óptimapara cuando no se conoce ningún atributo del objeto pero se conocen las probabilidadesa priori de las clases a clasificar queda expresada matemáticamente comoj optima = argmaxjP (j) . (2.2)Sin embargo en la mayoría de casos disponemos de más información para tomar unadecisión. Un médico normalmente espera a conocer los resultados de los análisis para pronunciarsesobre un paciente concreto. Por tanto lo que realmente se quiere conocer es laprobabilidad de pertenecer a cada una de las clases dado un valor para el vector de atributos,es decir, la probabilidad a posteriori P (j|x). Consideremos que el vector de atributosx es una variable aleatoria cuya distribución en el espacio de atributos depende de la clasea la que pertenece. Definamos la distribución p(x|j) como la función de densidad de probabilidadpara x dada la clase j. La probabilidad a posteriori se puede calcular a partir dep(x|j) y de las probabilidades a priori P (j) <strong>mediante</strong> la regla de BayesP (j|x) =p(x|j)P (j)p(x)(2.3)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!