13.07.2015 Views

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

4.2. MODIFICACIÓN DE LAS ETIQUETAS DE CLASE 73p debe ser menor que un cierto valor máximo de tal forma que el error de entrenamientotienda a cero al incrementarse el número de clasificadores individuales que integran elconjunto. Obviamente, no se pueden alterar las etiquetas de todos los ejemplos, porque seperdería toda la información de clases y por tanto del problema. El valor máximo de pdepende tanto del número de clases como de las distribuciones de clases. En problemas declasificación binaria, esta condición viene dada porp < P min , (4.3)donde P min es la proporción de ejemplos que pertenecen a la clase minoritaria. La desigualdad(4.3) asegura que, en promedio, la fracción de ejemplos modificados dentro de laclase minoritaria es menor que 1/2. Tasas de modificación global por encima de este límitemodificarían la etiqueta de más de la mitad de los ejemplos de la clase minoritaria. Comoconsecuencia, las regiones del espacio de características pertenecientes a la clase minoritariase verían inundadas por ejemplos etiquetados como de clase mayoritaria y por tanto,estas regiones serían clasificadas de forma incorrecta por el conjunto.Nuestra propuesta consiste en generar cada clasificador del conjunto de clasificadoresusando una perturbación del conjunto de entrada. En cada conjunto de datos perturbado semodifica una fracción fija p de los ejemplos del conjunto original, seleccionada aleatoriamentey sin tener en cuenta la clase del ejemplo. La etiqueta de clase de estos ejemplos secambia a su vez aleatoriamente por otra clase existente y diferente. Esto define la siguientematriz de probabilidades fija e independiente de la distribución de clases:P j←i = p/(K − 1)P i←i = 1 − p ,para i ≠ j(4.4)donde K es el número de clases. Este procedimiento genera <strong>conjuntos</strong> de entrenamiento enlos que la distribución de clases normalmente difiere de la distribución original del conjuntode entrenamiento. De hecho, la distribución de clases para <strong>conjuntos</strong> desequilibrados tiendea equilibrarse al incrementar p en los <strong>conjuntos</strong> perturbados.Para asegurar la convergencia del conjunto en el conjunto de entrenamiento debe haberpara cada clase una mayoría de ejemplos correctamente etiquetados (no modificados). Estacondición se alcanza en el conjunto de entrenamiento (en promedio) si P j←i < P i←i quede acuerdo con la ecuación (4.4) se cumple parap < (K − 1)/K, (4.5)independientemente de la distribución inicial de clases. De acuerdo con esta ecuación definimosel máximo valor de p para el método propuesto comop max = (K − 1)/K. (4.6)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!