clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior clasificaci´on mediante conjuntos - Escuela Politécnica Superior

13.07.2015 Views

90 CAPÍTULO 4. ALTERACIÓN DE ETIQUETAS DE CLASE4.5. ConclusionesLa modificación aleatoria de las etiquetas de clase de los ejemplos de entrenamientoes un procedimiento útil para generar conjuntos de clasificadores que: obtienen erroresde generalización significativamente mejores que bagging y cuya eficacia es comparableo mejor que boosting en varios problemas de clasificación de la colección de problemasde UCI y problemas de clasificación sintéticos. Estas mejoras de clasificación se alcanzanpara tasas relativamente altas de modificación de etiquetas de clases y para conjuntos conun gran número de clasificadores.La modificación aleatoria de las salidas como método de generación de conjuntos declasificadores fue propuesta inicialmente en [Breiman, 2000]. En esta referencia, los experimentosde clasificación fueron realizados con conjuntos de 100 clasificadores, que sondemasiado pequeños para que se ponga de manifiesto todo el potencial del método. Conlos experimentos realizados se ha ilustrado que es necesario utilizar un elevado númerode clasificadores (hasta 1000 predictores) para alcanzar el comportamiento asintótico delconjunto, especialmente para tasas altas de modificación de clases. Además, el métodode modificación de etiquetas propuesto, a diferencia del propuesto por Breiman, mantieneconstante la probabilidad de modificación global de clase (independientemente de laetiqueta original o la distribución original de clases) para cada ejemplo de entrenamiento.Con esta modificación se pueden utilizar valores más altos de modificación de clases paraconjuntos desequilibrados. Esta modificación permite alcanzar errores de generalizaciónsignificativamente mejores que flipping en los conjuntos con distribución desequilibrada declases. Para conjuntos con distribuciones de clases uniforme, el método desarrollado y elpropuesto por Breiman obtienen resultados de clasificación equivalentes.Otro punto importante abordado en este capítulo es la relación entre la tasa de modificaciónde clases p con la precisión final del conjunto. Valores más altos de p generan másruido en los problemas de clasificación que tienen que resolver los algoritmos base. Estosignifica que, para mayores valores de p, el patrón de clasificación de cada clasificadorindividual tiene menos similitud con el problema original. En consecuencia, es necesarioincluir un mayor número de elementos en el conjunto para perfilar de manera precisa lasfronteras de clasificación del problema original. No obstante, lejos de ser una desventaja, eluso de valores altos de p genera fronteras de clasificación más complejas que, en los problemasanalizados, conducen a mejores tasas de generalización. Existe un límite superior parael valor de p que se puede utilizar. Este límite corresponde al valor por encima del cual losclasificadores individuales se acercan al funcionamiento de un clasificador aleatorio. Losexperimentos realizados muestran que los conjuntos class-switching con valores de la tasade modificación de clases relativa de 3/5 alcanzan los mejores resultados en promedio paralos problemas analizados.Asimismo, el método propuesto para la generación de los conjuntos de entrenamientoperturbados permite realizar un análisis estadístico del proceso de entrenamiento para

4.5. CONCLUSIONES 91problemas de dos clases en términos de un proceso de Bernoulli. Suponiendo que los clasificadoresindividuales tienen suficiente flexibilidad para alcanzar error de clasificación nuloen los conjuntos perturbados, entonces las curvas de aprendizaje que muestran la dependenciadel error en función del tamaño del conjunto se pueden describir como una sumade términos de una distribución binomial. Además estas curvas de error en el conjunto deentrenamiento son independientes del problema de aprendizaje y sólo dependen de la tasade modificación de clase p, siempre que se usen conjuntos de datos en los que no existanvarios ejemplos caracterizados por el mismo vector de atributos.

90 CAPÍTULO 4. ALTERACIÓN DE ETIQUETAS DE CLASE4.5. ConclusionesLa modificación aleatoria de las etiquetas de clase de los ejemplos de entrenamientoes un procedimiento útil para generar <strong>conjuntos</strong> de clasificadores que: obtienen erroresde generalización significativamente mejores que bagging y cuya eficacia es comparableo mejor que boosting en varios problemas de clasificación de la colección de problemasde UCI y problemas de clasificación sintéticos. Estas mejoras de clasificación se alcanzanpara tasas relativamente altas de modificación de etiquetas de clases y para <strong>conjuntos</strong> conun gran número de clasificadores.La modificación aleatoria de las salidas como método de generación de <strong>conjuntos</strong> declasificadores fue propuesta inicialmente en [Breiman, 2000]. En esta referencia, los experimentosde clasificación fueron realizados con <strong>conjuntos</strong> de 100 clasificadores, que sondemasiado pequeños para que se ponga de manifiesto todo el potencial del método. Conlos experimentos realizados se ha ilustrado que es necesario utilizar un elevado númerode clasificadores (hasta 1000 predictores) para alcanzar el comportamiento asintótico delconjunto, especialmente para tasas altas de modificación de clases. Además, el métodode modificación de etiquetas propuesto, a diferencia del propuesto por Breiman, mantieneconstante la probabilidad de modificación global de clase (independientemente de laetiqueta original o la distribución original de clases) para cada ejemplo de entrenamiento.Con esta modificación se pueden utilizar valores más altos de modificación de clases para<strong>conjuntos</strong> desequilibrados. Esta modificación permite alcanzar errores de generalizaciónsignificativamente mejores que flipping en los <strong>conjuntos</strong> con distribución desequilibrada declases. Para <strong>conjuntos</strong> con distribuciones de clases uniforme, el método desarrollado y elpropuesto por Breiman obtienen resultados de clasificación equivalentes.Otro punto importante abordado en este capítulo es la relación entre la tasa de modificaciónde clases p con la precisión final del conjunto. Valores más altos de p generan másruido en los problemas de clasificación que tienen que resolver los algoritmos base. Estosignifica que, para mayores valores de p, el patrón de clasificación de cada clasificadorindividual tiene menos similitud con el problema original. En consecuencia, es necesarioincluir un mayor número de elementos en el conjunto para perfilar de manera precisa lasfronteras de clasificación del problema original. No obstante, lejos de ser una desventaja, eluso de valores altos de p genera fronteras de clasificación más complejas que, en los problemasanalizados, conducen a mejores tasas de generalización. Existe un límite superior parael valor de p que se puede utilizar. Este límite corresponde al valor por encima del cual losclasificadores individuales se acercan al funcionamiento de un clasificador aleatorio. Losexperimentos realizados muestran que los <strong>conjuntos</strong> class-switching con valores de la tasade modificación de clases relativa de 3/5 alcanzan los mejores resultados en promedio paralos problemas analizados.Asimismo, el método propuesto para la generación de los <strong>conjuntos</strong> de entrenamientoperturbados permite realizar un análisis estadístico del proceso de entrenamiento para

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!