02.02.2014 Views

Detección Automática de Agrupamientos de ... - Wiphala.net

Detección Automática de Agrupamientos de ... - Wiphala.net

Detección Automática de Agrupamientos de ... - Wiphala.net

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Detección Automática <strong>de</strong> <strong>Agrupamientos</strong><br />

<strong>de</strong> Microcalcificaciones en Mamografías<br />

Digitalizadas<br />

T E S I S<br />

Maestría en Ciencias en Sistemas Inteligentes<br />

Instituto Tecnológico y <strong>de</strong> Estudios Superiores <strong>de</strong> Monterrey<br />

Por<br />

Samuel Alonso Oporto Díaz<br />

Diciembre 2004


Detección Automática <strong>de</strong> <strong>Agrupamientos</strong><br />

<strong>de</strong> Microcalcificaciones en Mamografías<br />

Digitalizadas<br />

TESIS<br />

Maestría en Ciencias en<br />

Sistemas Inteligentes<br />

Instituto Tecnológico y <strong>de</strong> Estudios Superiores <strong>de</strong> Monterrey<br />

Por<br />

Samuel Alonso Oporto Díaz<br />

Diciembre 2004


Instituto Tecnológico y <strong>de</strong> Estudios Superiores <strong>de</strong><br />

Monterrey<br />

División <strong>de</strong> Graduados en Electrónica, Computación,<br />

Información y Comunicaciones<br />

Dirección <strong>de</strong> Programas <strong>de</strong> Posgrado en Electrónica, Computación,<br />

Información y Comunicaciones<br />

Los miembros <strong>de</strong>l comité <strong>de</strong> tesis recomendamos que la presente tesis <strong>de</strong> Samuel<br />

Alonso Oporto Díaz sea aceptada como requisito parcial para obtener el grado<br />

académico <strong>de</strong> Maestro en Ciencias en:<br />

Sistemas Inteligentes<br />

Comité <strong>de</strong> tesis:<br />

Dr. Hugo Terashima Marín<br />

Asesor <strong>de</strong> la tesis<br />

MSc. Santiago Enrique Conant<br />

Pablos<br />

Sinodal<br />

MSc. Rolando Rafael Hernán<strong>de</strong>z<br />

Cisneros<br />

Sinodal<br />

Dr. David A. Garza Salazar.<br />

Director <strong>de</strong>l Programa <strong>de</strong> Graduados<br />

en Electrónica, Computación,<br />

Información y Comunicaciones<br />

Diciembre <strong>de</strong> 2004


Detección Automática <strong>de</strong> <strong>Agrupamientos</strong><br />

<strong>de</strong> Microcalcificaciones en Mamografías<br />

Digitalizadas<br />

Por<br />

Samuel Alonso Oporto Díaz<br />

TESIS<br />

Presentada a la División <strong>de</strong> Electrónica, Computación, Información y Comunicaciones<br />

Este trabajo es requisito parcial para obtener el grado académico <strong>de</strong> Maestro en<br />

Ciencias en Sistemas Inteligentes<br />

Instituto Tecnológico y <strong>de</strong> Estudios Superiores <strong>de</strong> Monterrey<br />

Campus Monterrey<br />

Monterrey, N.L. Diciembre <strong>de</strong> 2004


Quiero <strong>de</strong>dicar esta tesis a mi esposa Sandra por su apoyo y comprensión por el<br />

tiempo que he estado lejos. A mi hijo Alberto, por el tiempo que le he quitado en<br />

<strong>de</strong>sarrollar este trabajo. A mi madre Marina por su ejemplo <strong>de</strong> <strong>de</strong>dicación y esfuerzo.<br />

A mi padre Eleazar por su apoyo. A Illa Ticsi por la motivación y el reto constante<br />

que representa.


Reconocimientos<br />

Deseo expresar un sincero agra<strong>de</strong>cimiento a las personas que <strong>de</strong> alguna forma<br />

colaboraron en el <strong>de</strong>sarrollo <strong>de</strong> esta tesis.<br />

A los integrantes <strong>de</strong>l comité <strong>de</strong> tesis, el Dr. Hugo Terashima Marín, el MSc. Santiago<br />

Enrique Conant Pablos y el MSc. Rolando Rafael Hernán<strong>de</strong>z Cisneros, por su<br />

apoyo constante en la direccionar el curso <strong>de</strong> la investigación.<br />

A mis profesores <strong>de</strong>l Centro <strong>de</strong> Sistemas Inteligentes por todos los conocimientos<br />

que pusieron a disposición.<br />

A mis compañeros <strong>de</strong>l post-grado con quienes pasamos juntos múltiples amanecidas.<br />

Samuel Alonso Oporto Díaz<br />

Instituto Tecnológico y <strong>de</strong> Estudios Superiores <strong>de</strong> Monterrey<br />

Diciembre 2004<br />

xi


Detección Automática <strong>de</strong> <strong>Agrupamientos</strong><br />

<strong>de</strong> Microcalcificaciones en Mamografías<br />

Digitalizadas<br />

Samuel Alonso Oporto Díaz, M.C.<br />

Instituto Tecnológico y <strong>de</strong> Estudios Superiores <strong>de</strong> Monterrey, 2004<br />

Asesor <strong>de</strong> la tesis: Dr. Hugo Terashima Marín<br />

La mamografía es una técnica no invasiva que permite el diagnóstico <strong>de</strong> cáncer<br />

<strong>de</strong> mama. Es una representación bidimensional <strong>de</strong>l grado <strong>de</strong> atenuación cuando los<br />

rayos X pasan a través <strong>de</strong> un objeto tridimensional, la mama. Las calcificaciones son<br />

pequeñas acumulaciones <strong>de</strong> calcio que se forman <strong>de</strong>ntro <strong>de</strong> los ductos mamarios; su<br />

etiología y localización <strong>de</strong>terminan el tamaño, la forma y la relación que existe entre<br />

ellas. Las técnicas <strong>de</strong> diagnóstico automático usan estas propieda<strong>de</strong>s para la toma <strong>de</strong><br />

<strong>de</strong>cisiones: calcificaciones aisladas o gran<strong>de</strong>s tienen baja probabilidad <strong>de</strong> ser malignas,<br />

pero calcificaciones pequeñas formando grupos <strong>de</strong> tres o más tienen alta probabilidad<br />

<strong>de</strong> ser malignas.<br />

Esta investigación preten<strong>de</strong> <strong>de</strong>sarrollar un procedimiento para el diagnóstico automático<br />

<strong>de</strong>l cáncer <strong>de</strong> mama <strong>de</strong>s<strong>de</strong> mamografías digitalizadas, mediante la <strong>de</strong>tección<br />

<strong>de</strong> agrupamientos <strong>de</strong> calcificaciones. 22 imágenes con 252 calcificaciones en total formando<br />

27 regiones <strong>de</strong> interés tomadas <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> The Mammographic Image<br />

Analysis Society (MIAS), se usaron para probar el <strong>de</strong>sempeño <strong>de</strong>l procedimiento.<br />

La hipótesis que se intenta <strong>de</strong>mostrar es que un sistema para la <strong>de</strong>tección automática<br />

<strong>de</strong> agrupamientos <strong>de</strong> calcificaciones tiene mayor probabilidad <strong>de</strong> encontrar<br />

casos malignos, que sólo <strong>de</strong>tectando calcificaciones individuales. El sistema proporcionará<br />

mayor cantidad <strong>de</strong> información para que el especialista tome una <strong>de</strong>cisión.<br />

El procedimiento propuesto está conformado por cinco etapas. En resumen se<br />

preten<strong>de</strong> <strong>de</strong>tectar y segmentar regiones sospechosas <strong>de</strong> ser calcificaciones, para luego<br />

agruparlas. El diagnóstico final pue<strong>de</strong> tener dos resultados: la mamografía no presenta<br />

agrupamientos o la mamografía presenta agrupamientos <strong>de</strong> calcificaciones y en este caso<br />

indicar si son benignos o malignos.


Índice general<br />

Reconocimientos<br />

Resumen<br />

Índice <strong>de</strong> cuadros<br />

Índice <strong>de</strong> figuras<br />

XI<br />

XIII<br />

XIX<br />

XXI<br />

Capítulo 1. Introducción 1<br />

1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1<br />

1.2. Definición <strong>de</strong>l problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6<br />

1.4. Preguntas <strong>de</strong> la investigación . . . . . . . . . . . . . . . . . . . . . . . . 7<br />

1.5. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

1.6. Metodología <strong>de</strong> la investigación . . . . . . . . . . . . . . . . . . . . . . 8<br />

1.7. Alcances y limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

1.8. Organización <strong>de</strong>l documento . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

Capítulo 2. Revisión <strong>de</strong> la Literatura 13<br />

2.1. Investigaciones recientes . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

2.2. Base <strong>de</strong> datos <strong>de</strong> imágenes . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

2.3. Cáncer <strong>de</strong> mama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

2.3.1. Factores <strong>de</strong> riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

2.3.2. Técnicas <strong>de</strong> diagnóstico . . . . . . . . . . . . . . . . . . . . . . . 19<br />

2.4. Mamografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

2.4.1. Tejido predominante . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

2.4.2. Proyecciones básicas . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

2.4.3. Mamografía digital . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

2.5. Proceso <strong>de</strong> diagnóstico <strong>de</strong>l cáncer <strong>de</strong> mama . . . . . . . . . . . . . . . . 22<br />

2.6. Hallazgos en la mamografía . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

2.6.1. Clasificación BI-RADS . . . . . . . . . . . . . . . . . . . . . . . 24<br />

2.6.2. Calcificaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

xv


2.6.3. Tipos <strong>de</strong> calcificaciones . . . . . . . . . . . . . . . . . . . . . . . 26<br />

2.6.4. Tipos <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones . . . . . . . . . . . . 30<br />

2.7. Procesamiento <strong>de</strong> imágenes . . . . . . . . . . . . . . . . . . . . . . . . 30<br />

2.8. Técnicas para la <strong>de</strong>tección <strong>de</strong> calcificaciones . . . . . . . . . . . . . . . 32<br />

2.9. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34<br />

Capítulo 3. Mo<strong>de</strong>lo <strong>de</strong> Solución 35<br />

3.1. Mo<strong>de</strong>lo <strong>de</strong> solución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

3.2. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38<br />

Capítulo 4. Preprocesamiento 39<br />

4.1. Filtro mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />

4.2. Imagen binaria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41<br />

4.3. Corte automático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

4.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

Capítulo 5. Detección <strong>de</strong> Potenciales Microcalcificaciones 45<br />

5.1. Diferencia <strong>de</strong> filtros gaussianos . . . . . . . . . . . . . . . . . . . . . . . 47<br />

5.1.1. Aplicación <strong>de</strong>l filtro DoG . . . . . . . . . . . . . . . . . . . . . . 49<br />

5.2. Binarización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49<br />

5.3. Etiquetado <strong>de</strong> regiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />

5.3.1. Vecindad <strong>de</strong> pixeles . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />

5.3.2. Etiquetado <strong>de</strong> regiones . . . . . . . . . . . . . . . . . . . . . . . 53<br />

5.4. Selección <strong>de</strong> puntos por área mínima . . . . . . . . . . . . . . . . . . . 56<br />

5.5. Segmentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57<br />

5.6. Selección <strong>de</strong> puntos por gris mínimo . . . . . . . . . . . . . . . . . . . . 58<br />

5.7. Selección por gradiente mínimo . . . . . . . . . . . . . . . . . . . . . . 60<br />

5.8. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />

Capítulo 6. Clasificación <strong>de</strong> Señales en Microcalcificaciones 61<br />

6.1. Extracción <strong>de</strong> características . . . . . . . . . . . . . . . . . . . . . . . . 62<br />

6.1.1. Contraste <strong>de</strong> la señal . . . . . . . . . . . . . . . . . . . . . . . . 64<br />

6.1.2. Contraste <strong>de</strong>l fondo . . . . . . . . . . . . . . . . . . . . . . . . . 65<br />

6.1.3. Contraste relativo . . . . . . . . . . . . . . . . . . . . . . . . . . 66<br />

6.1.4. Características <strong>de</strong> forma . . . . . . . . . . . . . . . . . . . . . . 67<br />

6.1.5. Momentos <strong>de</strong> la secuencia <strong>de</strong> contorno . . . . . . . . . . . . . . 72<br />

6.1.6. Momentos geométricos invariantes . . . . . . . . . . . . . . . . 74<br />

6.1.7. Resumen <strong>de</strong> características . . . . . . . . . . . . . . . . . . . . . 76<br />

6.2. Selección <strong>de</strong> características . . . . . . . . . . . . . . . . . . . . . . . . . 78<br />

6.2.1. Correlación entre características . . . . . . . . . . . . . . . . . . 78<br />

6.2.2. Selección <strong>de</strong> características . . . . . . . . . . . . . . . . . . . . . 78<br />

xvi


6.2.3. Discretización . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81<br />

6.2.4. Ganancia <strong>de</strong> información . . . . . . . . . . . . . . . . . . . . . . 83<br />

6.2.5. Derivación <strong>de</strong> la búsqueda secuencial hacia a<strong>de</strong>lante . . . . . . . 86<br />

6.3. Diseño <strong>de</strong>l clasificador . . . . . . . . . . . . . . . . . . . . . . . . . . . 88<br />

6.3.1. Re<strong>de</strong>s neuronales artificiales . . . . . . . . . . . . . . . . . . . . 89<br />

6.3.2. Arquitectura <strong>de</strong> la red . . . . . . . . . . . . . . . . . . . . . . . 89<br />

6.3.3. Normalización <strong>de</strong> datos . . . . . . . . . . . . . . . . . . . . . . . 90<br />

6.3.4. Estimador por validación cruzada <strong>de</strong> K-conjuntos . . . . . . . . 92<br />

6.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93<br />

Capítulo 7. Detección <strong>de</strong> <strong>Agrupamientos</strong> <strong>de</strong> Calcificaciones y Extracción<br />

<strong>de</strong> Características 95<br />

7.1. Detección <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones . . . . . . . . . . . . . . 97<br />

7.1.1. Búsqueda <strong>de</strong>l siguiente agrupamiento . . . . . . . . . . . . . . . 99<br />

7.2. Extracción <strong>de</strong> características . . . . . . . . . . . . . . . . . . . . . . . . 100<br />

7.2.1. Forma <strong>de</strong>l agrupamiento . . . . . . . . . . . . . . . . . . . . . . 100<br />

7.2.2. Área <strong>de</strong> las calcificaciones . . . . . . . . . . . . . . . . . . . . . 102<br />

7.2.3. Contraste <strong>de</strong> las calcificaciones . . . . . . . . . . . . . . . . . . . 103<br />

7.2.4. Resumen <strong>de</strong> características . . . . . . . . . . . . . . . . . . . . . 104<br />

7.3. Selección <strong>de</strong> características . . . . . . . . . . . . . . . . . . . . . . . . . 105<br />

7.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105<br />

Capítulo 8. Experimentación y Análisis <strong>de</strong> Resultados 107<br />

8.1. Plataforma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107<br />

8.2. Base <strong>de</strong> Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107<br />

8.2.1. Resumen <strong>de</strong> la base <strong>de</strong> datos. . . . . . . . . . . . . . . . . . . . 107<br />

8.2.2. Detalle <strong>de</strong> la base <strong>de</strong> datos. . . . . . . . . . . . . . . . . . . . . 108<br />

8.2.3. Análisis <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> la MIAS. . . . . . . . . . . . . . 111<br />

8.2.4. Preparación <strong>de</strong> los datos <strong>de</strong> prueba . . . . . . . . . . . . . . . . 113<br />

8.3. Diseño <strong>de</strong>l experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 121<br />

8.3.1. Sensibilidad y especificidad <strong>de</strong> un experimento . . . . . . . . . . 121<br />

8.4. Experimentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123<br />

8.4.1. Extracción <strong>de</strong> puntos con 15 filtros DoG y 51 umbrales . . . . . 123<br />

8.4.2. Preprocesamiento . . . . . . . . . . . . . . . . . . . . . . . . . . 130<br />

8.4.3. Detección <strong>de</strong> señales . . . . . . . . . . . . . . . . . . . . . . . . 132<br />

8.4.4. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147<br />

8.4.5. Extracción <strong>de</strong> características . . . . . . . . . . . . . . . . . . . . 148<br />

8.4.6. Selección <strong>de</strong> características . . . . . . . . . . . . . . . . . . . . . 152<br />

8.4.7. Detección <strong>de</strong> agrupamientos . . . . . . . . . . . . . . . . . . . . 176<br />

8.5. Prueba <strong>de</strong> la hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 190<br />

xvii


8.6. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194<br />

Capítulo 9. Conclusiones y Trabajos Futuros 195<br />

9.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195<br />

9.2. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200<br />

9.3. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201<br />

Bibliografía 203<br />

Vita 213<br />

xviii


Índice <strong>de</strong> cuadros<br />

2.1. Resumen <strong>de</strong> artículos relacionados con la <strong>de</strong>tección <strong>de</strong> calcificaciones y<br />

agrupamiento <strong>de</strong> calcificaciones. . . . . . . . . . . . . . . . . . . . . . . 14<br />

2.2. Base <strong>de</strong> datos <strong>de</strong> mamografías. . . . . . . . . . . . . . . . . . . . . . . . 17<br />

2.3. Trabajos <strong>de</strong> investigación que usaron la base <strong>de</strong> datos <strong>de</strong> la MIAS para<br />

la <strong>de</strong>tección <strong>de</strong> calcificaciones. . . . . . . . . . . . . . . . . . . . . . . . 17<br />

2.4. Trabajos <strong>de</strong> investigación que usaron la base <strong>de</strong> datos <strong>de</strong> la MIAS para<br />

la <strong>de</strong>tección <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones. . . . . . . . . . . . . . 18<br />

2.5. Sistemas <strong>de</strong> mamografía digital aprobadas por la FDA . . . . . . . . . 22<br />

2.6. Clasificación BI-RADS . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

2.7. Formato para el reporte <strong>de</strong> calcificaciones, según la clasificación BI-RADS 27<br />

6.1. Momentos <strong>de</strong> la secuencia <strong>de</strong> contorno y <strong>de</strong>scriptores modificados por<br />

Shen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74<br />

6.2. Resumen <strong>de</strong> características extraídas <strong>de</strong>s<strong>de</strong> las señales. . . . . . . . . . 76<br />

7.1. Resumen <strong>de</strong> características extraídas <strong>de</strong>s<strong>de</strong> los agrupamientos. . . . . . 104<br />

8.1. Resumen <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> la MIAS, por tipo <strong>de</strong> hallazgo y tipo <strong>de</strong><br />

tejido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108<br />

8.2. Detalle <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> la MIAS, imágenes con calcificaciones. . 109<br />

8.3. Número <strong>de</strong> regiones y número <strong>de</strong> calcificaciones por imagen. . . . . . . 112<br />

8.4. Número <strong>de</strong> puntos extraídos automáticamente y número <strong>de</strong> calcificaciones<br />

i<strong>de</strong>ntificadas manualmente. . . . . . . . . . . . . . . . . . . . . . 117<br />

8.5. Calcificaciones i<strong>de</strong>ntificadas. Mamografías mdb209, mdb211, mdb213,<br />

mdb216, mdb218, mdb219, mdb222, mdb223, mdb226, mdb227. . . . . 118<br />

8.6. Calcificaciones i<strong>de</strong>ntificadas. Mamografías mdb231, mdb233, mdb236,<br />

mdb238, mdb239 y mdb241. . . . . . . . . . . . . . . . . . . . . . . . . 119<br />

8.7. Calcificaciones i<strong>de</strong>ntificadas. Mamografías mdb245, mdb248, mdb249,<br />

mdb252, mdb253 y mdb256. . . . . . . . . . . . . . . . . . . . . . . . . 120<br />

8.8. Ejemplo <strong>de</strong> puntos seleccionados (x,y), cercanos al centroi<strong>de</strong> (rx, ry). . 127<br />

8.9. Tamaño y <strong>de</strong>sviación estándar <strong>de</strong> filtros. . . . . . . . . . . . . . . . . . 134<br />

8.10. Umbral <strong>de</strong> binarización calculado para 15 filtros DoG. . . . . . . . . . . 143<br />

xix


8.11. Número <strong>de</strong> puntos VP <strong>de</strong>tectados por cada filtro DoG, consi<strong>de</strong>rando 51<br />

umbrales <strong>de</strong> binarización. . . . . . . . . . . . . . . . . . . . . . . . . . . 144<br />

8.12. Número <strong>de</strong> casos VP en cada muestra. . . . . . . . . . . . . . . . . . . 147<br />

8.13. Estadísticos para las 47 características extraídas <strong>de</strong>s<strong>de</strong> puntos (1’242,179<br />

puntos). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149<br />

8.14. Estadísticos para las 47 características extraídas <strong>de</strong>s<strong>de</strong> puntos cercanos<br />

(8,566 puntos). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150<br />

8.15. Matriz <strong>de</strong> correlación. Características <strong>de</strong> contraste. . . . . . . . . . . . 152<br />

8.16. Matriz <strong>de</strong> correlación. Características <strong>de</strong> forma (área y perímetro). . . . 153<br />

8.17. Matriz <strong>de</strong> correlación. Características <strong>de</strong> forma 1. . . . . . . . . . . . . 154<br />

8.18. Matriz <strong>de</strong> correlación. Características <strong>de</strong> forma 2. . . . . . . . . . . . . 155<br />

8.19. Matriz <strong>de</strong> correlación. Características <strong>de</strong>l momento <strong>de</strong> secuencia <strong>de</strong> contorno.<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156<br />

8.20. Ganancia <strong>de</strong> información y coeficiente <strong>de</strong> correlación. . . . . . . . . . . 160<br />

8.21. Resultados obtenidos para clasificar señales en calcificaciones. . . . . . 175<br />

8.22. Número <strong>de</strong> calcificaciones según la técnica y el radio. . . . . . . . . . . 179<br />

8.23. Ejemplos <strong>de</strong> características extraídas <strong>de</strong>s<strong>de</strong> 40 agrupamientos. . . . . . 180<br />

8.24. Estadísticos para las 30 características extraídas <strong>de</strong>s<strong>de</strong> los agrupamientos.183<br />

8.25. Ejemplos <strong>de</strong> características extraídas <strong>de</strong>s<strong>de</strong> 22 agrupamientos. . . . . . 184<br />

8.26. Resultados obtenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191<br />

8.27. Tabla ANOVA. 2 tratamientos . . . . . . . . . . . . . . . . . . . . . . . 193<br />

8.28. Tabla ANOVA. 4 tratamientos . . . . . . . . . . . . . . . . . . . . . . . 193<br />

xx


Índice <strong>de</strong> figuras<br />

1.1. Relación entre verda<strong>de</strong>ros positivos (V+), verda<strong>de</strong>ros negativos (V-),<br />

falsos positivos (F+) y falsos negativos (F-). . . . . . . . . . . . . . . . 4<br />

1.2. Procedimientos usados en la solución <strong>de</strong>l problema. . . . . . . . . . . . 5<br />

1.3. Número <strong>de</strong> agrupamientos <strong>de</strong> microcalcificaciones en una imagen. . . . 9<br />

2.1. Anatomía <strong>de</strong> las mamas y ejemplo <strong>de</strong> mamografía. . . . . . . . . . . . . 20<br />

2.2. Tipo <strong>de</strong> tejido predominante. a). Graso, b). Graso glandular, c) Denso. 21<br />

2.3. Proyecciones básicas. a). Cráneo-caudal, b). Oblicua medio-lateral. . . . 22<br />

2.4. Hallazgos en la mamografía. . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

2.5. Tipo <strong>de</strong> calcificaciones, según la clasificación BI-RADS. . . . . . . . . . 28<br />

3.1. Mo<strong>de</strong>lo <strong>de</strong> solución <strong>de</strong> la investigación. . . . . . . . . . . . . . . . . . . 35<br />

4.1. Diagrama <strong>de</strong> flujo. Etapa <strong>de</strong> preprocesamiento. . . . . . . . . . . . . . 39<br />

4.2. Aplicación <strong>de</strong>l filtro mediana. a) imagen original, b) imagen con ruido,<br />

c) filtro mediana <strong>de</strong> 3x3 y d) filtro promediador <strong>de</strong> 3x3. . . . . . . . . . 40<br />

4.3. Creación <strong>de</strong> la imagen binaria. a) imagen original, b) imagen binaria. . 41<br />

4.4. Histograma <strong>de</strong>l porcentaje <strong>de</strong> la imagen que ocupa la mama. . . . . . . 42<br />

4.5. Resultados <strong>de</strong>l corte automático. a). imagen binaria (espejo), b). imagen<br />

binaria sin regiones aisladas, c). <strong>de</strong>terminación <strong>de</strong> los extremos para<br />

ejecutar los cortes y d). imagen binaria luego <strong>de</strong>l corte horizontal y vertical. 43<br />

4.6. Resultados <strong>de</strong>l corte automático. Imagen original e imagen resultante. . 44<br />

5.1. Diagrama <strong>de</strong> flujo. Etapa <strong>de</strong> <strong>de</strong>tección <strong>de</strong> microcalcificaciones. . . . . . 45<br />

5.2. Nombres que adquieren las regiones i<strong>de</strong>ntificadas en la mamografía. . . 46<br />

5.3. Ejemplo <strong>de</strong> una función <strong>de</strong> distribución gaussiana en 2-D. . . . . . . . . 47<br />

5.4. Ejemplos <strong>de</strong> máscaras gaussianas usadas con el filtro DoG. a). Máscara<br />

5x5 con σ 1 ≈ 0,7618, b). Máscara 7x7 con σ 2 ≈ 0,8226 y c). Máscara<br />

7x7 <strong>de</strong>l filtro DoG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br />

5.5. Gráfica <strong>de</strong> las máscaras Gaussianas usadas con el filtro DoG. . . . . . . 48<br />

xxi


5.6. Aplicación <strong>de</strong> un filtro gaussiano 1-D, a). vector <strong>de</strong> datos, b). resultado <strong>de</strong><br />

restar los datos filtrados, c). datos filtrados con la máscara [2, 4, 9, 4, 2],<br />

d). datos filtrados con la máscara [2, 4, 8, 16, 8, 4, 2]. . . . . . . . . . . . 50<br />

5.7. Aplicación <strong>de</strong> filtro [DoG(5x5, 7x7)]. . . . . . . . . . . . . . . . . . . . 51<br />

5.8. Aplicación <strong>de</strong> filtro [DoG(5x5, 9x9)]. . . . . . . . . . . . . . . . . . . . 51<br />

5.9. Histograma típico <strong>de</strong> la imagen generada luego <strong>de</strong> aplicar el filtro DoG. 52<br />

5.10. Resultados obtenidos para diferentes umbrales a). DoG(5x5, 7x7) y b).<br />

DoG(5x5, 9x9). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />

5.11. Tipos <strong>de</strong> vecindad: a). Vecindad V 4 , b). Vecindad V 8 . . . . . . . . . . . 53<br />

5.12. Máscara usada en el algoritmo <strong>de</strong> coloreado <strong>de</strong> regiones. . . . . . . . . 53<br />

5.13. Etiquetado <strong>de</strong> regiones. a). Imagen original, b). Imagen coloreada . . . 55<br />

5.14. Etiquetado <strong>de</strong> regiones. a) imagen binarizada, b) etiquetado <strong>de</strong> regiones,<br />

c) regiones seleccionadas como puntos. . . . . . . . . . . . . . . . . . . 57<br />

5.15. Ejemplo <strong>de</strong> múltiples puntos ubicados en la misma ventana. a) imagen<br />

preprocesada, b) ventana extraída, c). ventana segmentada. . . . . . . . 58<br />

5.16. Cálculo <strong>de</strong>l gris promedio. a). niveles <strong>de</strong> gris (MI), b). máscara <strong>de</strong> la<br />

región <strong>de</strong> interés (MD), c). región <strong>de</strong> interés. Promedio total = 166,<br />

Promedio ROI = 175. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59<br />

6.1. Diagrama <strong>de</strong> flujo. Etapa <strong>de</strong> extracción <strong>de</strong> características y clasificación. 61<br />

6.2. Señales. a) Imagen en escala <strong>de</strong> grises, b) Imagen binaria, c) Imagen en<br />

escala <strong>de</strong> grises, con ceros en los pixeles <strong>de</strong>l fondo y d) Imagen en escala<br />

<strong>de</strong> grises con ceros en los pixeles <strong>de</strong> la señal . . . . . . . . . . . . . . . 63<br />

6.3. Asimetría <strong>de</strong> una distribución <strong>de</strong> frecuencias. . . . . . . . . . . . . . . . 65<br />

6.4. Kurtosis <strong>de</strong> una distribución <strong>de</strong> frecuencias. . . . . . . . . . . . . . . . 66<br />

6.5. Área convexa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />

6.6. Perímetro <strong>de</strong> la señal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68<br />

6.7. Diámetro máximo y diámetro mínimo. . . . . . . . . . . . . . . . . . . 68<br />

6.8. Longitud <strong>de</strong> fibra y ancho <strong>de</strong> fibra. . . . . . . . . . . . . . . . . . . . . 69<br />

6.9. Enrollamiento <strong>de</strong> algunas formas. . . . . . . . . . . . . . . . . . . . . . 70<br />

6.10. Elongación <strong>de</strong> dos objetos. a). alta elongación, b). baja elongación. . . . 71<br />

6.11. Soli<strong>de</strong>z <strong>de</strong> algunos objetos: a). 0.90, b). 0.85, c). 0.84, d). 0.75, e). 1.00 72<br />

6.12. Firma <strong>de</strong> un objeto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />

6.13. Selección <strong>de</strong> características. . . . . . . . . . . . . . . . . . . . . . . . . 79<br />

6.14. Maldición <strong>de</strong> la dimensionalidad. . . . . . . . . . . . . . . . . . . . . . 79<br />

6.15. Diagrama <strong>de</strong> flujo. Selección <strong>de</strong> características. . . . . . . . . . . . . . . 81<br />

6.16. Ejemplo <strong>de</strong> discretización <strong>de</strong> valores. . . . . . . . . . . . . . . . . . . . 83<br />

6.17. Cálculo <strong>de</strong> la entropía. . . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />

6.18. Ganancia <strong>de</strong> información. a). conjunto global (3 valores). b). atributo (4<br />

valores) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85<br />

xxii


6.19. Ejemplo <strong>de</strong> las mejores características seleccionadas. . . . . . . . . . . . 87<br />

6.20. Tipos <strong>de</strong> clasificadores. . . . . . . . . . . . . . . . . . . . . . . . . . . . 88<br />

6.21. Arquitectura <strong>de</strong> la red neuronal . . . . . . . . . . . . . . . . . . . . . . 90<br />

6.22. Normalización <strong>de</strong> datos al rango [-1, 1] . . . . . . . . . . . . . . . . . . 91<br />

6.23. Estimador por validación cruzada con K conjuntos . . . . . . . . . . . . 92<br />

7.1. Cálculo <strong>de</strong>l radio <strong>de</strong>l agrupamiento. . . . . . . . . . . . . . . . . . . . . 95<br />

7.2. Diagrama <strong>de</strong> flujo general. Etapa <strong>de</strong> <strong>de</strong>tección <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones.<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />

7.3. Diagrama <strong>de</strong> flujo. Detección <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones. . . . 97<br />

7.4. Preparación <strong>de</strong> puntos y bor<strong>de</strong>s. . . . . . . . . . . . . . . . . . . . . . . 98<br />

7.5. Cálculo <strong>de</strong> la <strong>de</strong>nsidad <strong>de</strong> puntos. . . . . . . . . . . . . . . . . . . . . . 99<br />

7.6. a). Agrupamiento original, b). Envolvente convexa y c). Cierre convexo. 101<br />

7.7. Diámetro máximo y diámetro mínimo. . . . . . . . . . . . . . . . . . . 102<br />

8.1. Origen <strong>de</strong>l sistema <strong>de</strong> coor<strong>de</strong>nadas (mdb219) . . . . . . . . . . . . . . . 110<br />

8.2. Ejemplo <strong>de</strong> calcificaciones (mdb219). a). Región <strong>de</strong> interés. b) Listado<br />

<strong>de</strong> centroi<strong>de</strong>s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111<br />

8.3. Mamografías con regiones <strong>de</strong> interés fuera <strong>de</strong> la mama . . . . . . . . . . 113<br />

8.4. Activida<strong>de</strong>s para i<strong>de</strong>ntificar calcificaciones en las imágenes. . . . . . . . 113<br />

8.5. Aplicación <strong>de</strong>l filtro DoG en cascada . . . . . . . . . . . . . . . . . . . 115<br />

8.6. Porcentaje <strong>de</strong> puntos seleccionados según el gradiente <strong>de</strong> gris promedio. 115<br />

8.7. Ejemplo <strong>de</strong> calcificaciones con el mismo centroi<strong>de</strong> pero diferentes pixeles. 117<br />

8.8. Relación entre verda<strong>de</strong>ros positivos, verda<strong>de</strong>ros negativos, falsos positivos<br />

y falsos negativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121<br />

8.9. Tabla <strong>de</strong> contingencia <strong>de</strong> una prueba . . . . . . . . . . . . . . . . . . . 122<br />

8.10. Diagrama <strong>de</strong> flujo. Experimento 1. . . . . . . . . . . . . . . . . . . . . 123<br />

8.11. Distribución <strong>de</strong> frecuencia, número <strong>de</strong> puntos según el umbral. . . . . . 125<br />

8.12. Pixeles consi<strong>de</strong>rados como cercanos. . . . . . . . . . . . . . . . . . . . . 126<br />

8.13. Distribución <strong>de</strong> frecuencia, número <strong>de</strong> puntos cercanos según el umbral. 126<br />

8.14. Promedio <strong>de</strong> puntos por calcificación. . . . . . . . . . . . . . . . . . . . 128<br />

8.15. Puntos que conforman una calcificación (mdb219). . . . . . . . . . . . . 129<br />

8.16. Resultados obtenidos aplicando diversos tamaños <strong>de</strong>l filtro mediana. a)<br />

imagen original, b) filtro <strong>de</strong> 3x3, c) filtro <strong>de</strong> 5x5, d) filtro <strong>de</strong> 7x7, e) filtro<br />

<strong>de</strong> 9x9, f) filtro <strong>de</strong> 11x11. . . . . . . . . . . . . . . . . . . . . . . . . . . 131<br />

8.17. Número <strong>de</strong> ventanas generadas en relación al tamaño <strong>de</strong> la ventana . . 132<br />

8.18. Histograma <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las ventanas, ventanas <strong>de</strong> 8x8. . . . 132<br />

8.19. Histograma <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las ventanas, ventanas <strong>de</strong> 16x16. . 133<br />

8.20. Histograma <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las ventanas, ventanas <strong>de</strong> 32x32. . 133<br />

8.21. Histograma <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las ventanas, ventanas <strong>de</strong> 64x64. . 134<br />

xxiii


8.22. Relación σ 2 /σ 1 para 15 filtros DoG . . . . . . . . . . . . . . . . . . . . 135<br />

8.23. Máscara <strong>de</strong> filtros gaussianos <strong>de</strong> 5x5 y 7x7 . . . . . . . . . . . . . . . . 135<br />

8.24. Máscara <strong>de</strong> filtros gaussianos <strong>de</strong> 9x9 y 11x11 . . . . . . . . . . . . . . . 136<br />

8.25. Máscara <strong>de</strong> filtros gaussianos <strong>de</strong> 13x13 y 15x15 . . . . . . . . . . . . . . 136<br />

8.26. a). Tamaño <strong>de</strong> cada pixel, b). Tamaño <strong>de</strong> ventana y bor<strong>de</strong>. . . . . . . . 137<br />

8.27. Distribución <strong>de</strong> frecuencia <strong>de</strong>l área para puntos cercanos. . . . . . . . . 138<br />

8.28. Distribución <strong>de</strong> frecuencia <strong>de</strong>l área para puntos seleccionados. . . . . . 138<br />

8.29. Distribución <strong>de</strong> frecuencia <strong>de</strong>l promedio <strong>de</strong> gris para puntos cercanos. . 139<br />

8.30. Distribución <strong>de</strong> frecuencia <strong>de</strong>l promedio <strong>de</strong> gris para puntos seleccionados.139<br />

8.31. Distribución <strong>de</strong> frecuencia <strong>de</strong>l gradiente <strong>de</strong> gris para puntos cercanos. . 140<br />

8.32. Distribución <strong>de</strong> frecuencia <strong>de</strong>l gradiente <strong>de</strong> gris para puntos seleccionados.140<br />

8.33. Porcentaje <strong>de</strong> éxito según el umbral, filtro gausiano <strong>de</strong> 5x5. . . . . . . . 141<br />

8.34. Porcentaje <strong>de</strong> éxito según el umbral, filtro gausiano <strong>de</strong> 7x7. . . . . . . . 141<br />

8.35. Porcentaje <strong>de</strong> éxito según el umbral, filtro gausiano <strong>de</strong> 9x9. . . . . . . . 142<br />

8.36. Porcentaje <strong>de</strong> éxito según el umbral, filtro gausiano <strong>de</strong> 11x11. . . . . . 142<br />

8.37. Porcentaje <strong>de</strong> éxito según el umbral, filtro gausiano <strong>de</strong> 13x13. . . . . . 143<br />

8.38. Capacidad <strong>de</strong> <strong>de</strong>tección <strong>de</strong> potenciales calcificaciones . . . . . . . . . . 146<br />

8.39. Diagrama <strong>de</strong> cajas. Características <strong>de</strong> contraste . . . . . . . . . . . . . 153<br />

8.40. Diagrama <strong>de</strong> cajas. Características <strong>de</strong> área y perímetro . . . . . . . . . 154<br />

8.41. Diagrama <strong>de</strong> cajas. Características <strong>de</strong> forma 1 . . . . . . . . . . . . . . 155<br />

8.42. Diagrama <strong>de</strong> cajas. Características <strong>de</strong> forma 2 . . . . . . . . . . . . . . 156<br />

8.43. Diagrama <strong>de</strong> cajas. Características <strong>de</strong>l momento <strong>de</strong> la secuencia <strong>de</strong> contorno<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157<br />

8.44. Ganancia <strong>de</strong> información promedio, según el tamaño <strong>de</strong> la muestra . . . 158<br />

8.45. Ganancia <strong>de</strong> información promedio, según el porcentaje <strong>de</strong> VP . . . . . 159<br />

8.46. Ganancias <strong>de</strong> información según el porcentaje <strong>de</strong> VP para una muestra<br />

<strong>de</strong>l 25,000 registros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160<br />

8.47. Ejemplos <strong>de</strong> arquitecturas <strong>de</strong> la red neuronal. . . . . . . . . . . . . . . 162<br />

8.48. Porcentaje <strong>de</strong> indicadores <strong>de</strong> éxito y error <strong>de</strong>l clasificador, muestra <strong>de</strong><br />

10,000 registros (25 % <strong>de</strong> VP) . . . . . . . . . . . . . . . . . . . . . . . 163<br />

8.49. Comparación <strong>de</strong>l porcentaje <strong>de</strong> VP para diferentes tamaños <strong>de</strong> muestra. 164<br />

8.50. Comparación <strong>de</strong>l porcentaje <strong>de</strong> VP para diferentes porcentajes <strong>de</strong> VP<br />

en la muestra. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165<br />

8.51. Relación entre el porcentaje <strong>de</strong> VP y el porcentaje <strong>de</strong> éxito . . . . . . . 166<br />

8.52. GI estimada, or<strong>de</strong>nadas según el porcentaje <strong>de</strong> éxito. . . . . . . . . . . 167<br />

8.53. GI estimada, or<strong>de</strong>nadas según el porcentaje <strong>de</strong> VP. . . . . . . . . . . . 168<br />

8.54. GI estimada, or<strong>de</strong>nadas según el porcentaje <strong>de</strong> éxito. . . . . . . . . . . 169<br />

8.55. GI estimada, or<strong>de</strong>nadas según el porcentaje <strong>de</strong> VP. . . . . . . . . . . . 170<br />

8.56. GI estimada, or<strong>de</strong>nadas según la frecuencia <strong>de</strong> éxito. . . . . . . . . . . 171<br />

8.57. GI estimada, or<strong>de</strong>nadas según el porcentaje <strong>de</strong> éxito. . . . . . . . . . . 172<br />

xxiv


8.58. GI estimada, or<strong>de</strong>nadas según el porcentaje <strong>de</strong> VP. . . . . . . . . . . . 173<br />

8.59. GI estimada, or<strong>de</strong>nadas según la frecuencia <strong>de</strong> éxito. . . . . . . . . . . 174<br />

8.60. Número <strong>de</strong> agrupamientos <strong>de</strong>tectados por mamografía en función <strong>de</strong>l radio.176<br />

8.61. Ejemplos <strong>de</strong> agrupamientos. a) Densidad y b). Compacidad. . . . . . . 177<br />

8.62. Ejemplo <strong>de</strong> agrupamientos según la <strong>de</strong>sviación estándar <strong>de</strong> los radios. . 178<br />

8.63. Diagrama <strong>de</strong> cajas para diámetro mínimo, radio mínimo y radio promedio.182<br />

8.64. Diagrama <strong>de</strong> cajas para gris mínimo y gris máximo. . . . . . . . . . . . 182<br />

8.65. Características or<strong>de</strong>nadas en función a la frecuencia <strong>de</strong> éxito. . . . . . . 185<br />

8.66. Porcentaje <strong>de</strong> éxito para 30 clasificadores. . . . . . . . . . . . . . . . . 186<br />

8.67. Desempeño <strong>de</strong> la red según el porcentaje <strong>de</strong> registros (40 agrupamientos).188<br />

8.68. Desempeño <strong>de</strong> la red según el porcentaje <strong>de</strong> registros (22 agrupamientos).188<br />

8.69. Desempeño <strong>de</strong> la red según el número <strong>de</strong> neuronas <strong>de</strong> la capa intermedia. 189<br />

8.70. Desempeño <strong>de</strong> la red según el número <strong>de</strong> neuronas <strong>de</strong> la capa intermedia. 189<br />

8.71. Diagrama <strong>de</strong> cajas <strong>de</strong> cuatro tratamientos. . . . . . . . . . . . . . . . . 192<br />

xxv


Capítulo 1<br />

Introducción<br />

1.1. Introducción<br />

El cáncer <strong>de</strong> mama es una <strong>de</strong> las mayores causas <strong>de</strong> mortalidad en mujeres. Tiene<br />

una inci<strong>de</strong>ncia <strong>de</strong> 25 por cada 100,000 personas; el 99 % <strong>de</strong> los afectados son mujeres y<br />

el 30 % <strong>de</strong> los quistes mamarios son malignos. En ausencia <strong>de</strong> una efectiva prevención,<br />

el diagnóstico precoz y el tratamiento efectivo son los únicos medios para reducir la<br />

mortalidad por cáncer <strong>de</strong> mama. El éxito en el tratamiento <strong>de</strong>pen<strong>de</strong> en gran medida<br />

<strong>de</strong>l grado <strong>de</strong> avance <strong>de</strong> la enfermedad, así en los estadios tempranos se logra alto grado<br />

<strong>de</strong> efectividad en el tratamiento. La tasa <strong>de</strong> mortalidad va <strong>de</strong> 10 % en el primer año al<br />

80 % en 5 años luego <strong>de</strong>l diagnóstico (Gordo [36]).<br />

Entre las principales técnicas usadas para el diagnóstico <strong>de</strong> cáncer <strong>de</strong> mama se<br />

tiene el autoexamen, la exploración clínica, la mamografía, la ecografía mamaria y la<br />

biopsia (Gordo [36], Almenteros [11], Calero [9]). Se preten<strong>de</strong> que estas técnicas sean<br />

no invasivas y que permitan diagnosticar la enfermedad en sus estadios tempranos. La<br />

mamografía tiene la ventaja <strong>de</strong> ser no invasiva y por otro lado, la <strong>de</strong>nsidad <strong>de</strong>l tejido<br />

predominante es bien representada en la imagen.<br />

Las hallazgos que pue<strong>de</strong>n ser observados en una mamografía son: masas, calcificaciones,<br />

distorsiones arquitecturales, áreas <strong>de</strong> <strong>de</strong>nsida<strong>de</strong>s asimétricas entre las mamas<br />

y conductos lactíferos prominentes(De Pare<strong>de</strong>s [24]).<br />

La sensibilidad <strong>de</strong> la mamografía (probabilidad <strong>de</strong> un resultado anormal en presencia<br />

<strong>de</strong> cáncer <strong>de</strong> mama) es alta y está entre el 85 % y el 95 %, en relación al examen<br />

clínico (50 %). Dependiendo <strong>de</strong> la edad, la sensibilidad se incrementa. Por otro lado,<br />

la especificidad <strong>de</strong> la mamografía (probabilidad <strong>de</strong> un resultado normal en ausencia <strong>de</strong><br />

enfermedad) es baja y está entre el 15 % y el 30 %. Alre<strong>de</strong>dor <strong>de</strong> un 10 % <strong>de</strong> las mamografías<br />

practicadas en mujeres sin cáncer mamario (resultados falso positivos) sugieren<br />

su presencia, provocando ansiedad, exámenes complementarios y biopsias mamarias<br />

innecesarias (Valdivia [4]).<br />

Entre el 2 % y el 22 % <strong>de</strong> los resultados positivos obtenidos mediante una mamografía<br />

la primera vez, requirieron nuevas evaluaciones para confirmar los resultados y<br />

1


entre el 12 % y el 78 % requirieron una biopsia (Mushlin [64], Shen [78]). Dada la baja<br />

especificidad <strong>de</strong> la mamografía, el diagnóstico complementario es necesario, la técnica<br />

frecuentemente usada es la biopsia, <strong>de</strong>bido a su alta especificidad.<br />

La elevada sensibilidad pero baja especificidad <strong>de</strong> la mamografía en el diagnóstico<br />

<strong>de</strong>l cáncer <strong>de</strong> mama se pue<strong>de</strong> <strong>de</strong>ber a: (Ganott [33]):<br />

1. La baja diferenciación en la apariencia <strong>de</strong>l tejido canceroso comparado con el<br />

tejido parenquimal normal, en especial cuando el tejido predominante en la mama<br />

es <strong>de</strong>nso.<br />

2. La variada morfología <strong>de</strong> los hallazgos, muchos <strong>de</strong> ellos no relacionados con el<br />

cáncer.<br />

3. La semejanza entre las morfologías <strong>de</strong> los hallazgos.<br />

4. El variado tamaño <strong>de</strong> los hallazgos.<br />

5. Posibles <strong>de</strong>ficiencias en la técnica para tomar la radiografía, entregando imágenes<br />

<strong>de</strong> baja calidad.<br />

6. La fatiga visual o distracción <strong>de</strong>l radiólogo.<br />

Se ha <strong>de</strong>mostrado que el doble diagnóstico mejora la sensibilidad a lo más en<br />

15 % (Ciatto [15], Elmore [28]); mientras que cada radiólogo pue<strong>de</strong> per<strong>de</strong>r un pequeño<br />

número <strong>de</strong> casos, el otro los pue<strong>de</strong> <strong>de</strong>tectar. Pero como cada mamografía <strong>de</strong>be <strong>de</strong> ser<br />

revisada por dos radiólogos, este procedimiento es ineficiente <strong>de</strong>s<strong>de</strong> el punto <strong>de</strong> vista<br />

práctico <strong>de</strong>bido a la escasez <strong>de</strong> especialistas y a que la productividad individual se<br />

ve reducida. Tomar una placa radiográfica pue<strong>de</strong> tomar entre 20 a 30 minutos, pero<br />

diagnosticar una mamografía pue<strong>de</strong> tomar al menos 40 minutos. Este tiempo se pue<strong>de</strong><br />

incrementar si es que se encuentran regiones sospechosas que no se pue<strong>de</strong>n <strong>de</strong>clarar<br />

fácilmente como procesos benignos (ver la sección 2.6).<br />

Una alternativa viable es que el otro radiólogo sea un sistema computacional actuando<br />

como una segunda opinión, así los resultados obtenidos por el sistema pue<strong>de</strong>n<br />

ser confirmados o rechazados por el especialista (Anttinen [3], Thurfjell [85]). En conclusión,<br />

la mamografía es la técnica i<strong>de</strong>al para el diagnóstico temprano <strong>de</strong>l cáncer <strong>de</strong><br />

mama, porque no es invasiva y porque pue<strong>de</strong> representar a<strong>de</strong>cuadamente las calcificaciones.<br />

Una técnica es i<strong>de</strong>al porque permite <strong>de</strong>tectar el cáncer antes que infiltre en el<br />

tejido circundante.<br />

Las calcificaciones son pequeñas acumulaciones <strong>de</strong> calcio <strong>de</strong> 0.1 mm a 2 mm <strong>de</strong><br />

ancho, y son indicadores favorables <strong>de</strong> la presencia <strong>de</strong> cáncer <strong>de</strong> mama. Frecuentemente<br />

son usadas en el diagnóstico <strong>de</strong>l carcinoma intraductal o carcinoma ductal in situ y<br />

tienen probada capacidad para <strong>de</strong>tectar estadios tempranos <strong>de</strong> la enfermedad. Entre el<br />

2


30 % y el 50 % <strong>de</strong>l cáncer <strong>de</strong> mama en el mundo es diagnosticado <strong>de</strong>bido a la <strong>de</strong>tección<br />

<strong>de</strong> calcificaciones.<br />

Los agrupamientos <strong>de</strong> calcificaciones son grupos <strong>de</strong> 3 o más calcificaciones individuales<br />

que pue<strong>de</strong>n aparecer en áreas menores a 1 cm 2 . Su presencia incrementa la<br />

probabilidad <strong>de</strong> que la lesión sea maligna.<br />

Muchos autores trataron el problema <strong>de</strong> segmentación automática <strong>de</strong> microcalcificaciones<br />

en mamografías digitales (Lefebvre et al. [57], Bocchi et al. [7], Li et al. [59],<br />

Liu et al. [61], Wróblewska et al. [89], Betal et al. [6], Ustymowicz et al. [87], Ibrahim<br />

et al. [49], Cheng et al. [14], Kook et al. [51], Comer et al. [16] y Linguraru et al. [60]).<br />

El problema no es sencillo <strong>de</strong> resolver, muchos <strong>de</strong> los obstáculos se originan en el bajo<br />

contraste que exponen, en especial cuando el tejido predominante es <strong>de</strong>nso (ver la<br />

subsección 2.4.1). Por otro lado, las microcalcificaciones pue<strong>de</strong>n ser muy pequeñas en<br />

especial en sus estadios tempranos haciendo difícil la observación.<br />

Otros autores han tratado el problema <strong>de</strong> <strong>de</strong>tectar agrupamientos <strong>de</strong> microcalcificaciones<br />

(Gavrieli<strong>de</strong>s [34], Salfity et al. [76], Papadopoulosa et al. [70], Songyang et al.<br />

[92] y Norhayati et al. [67]). El problema que se intenta resolver es i<strong>de</strong>ntificar grupos <strong>de</strong><br />

puntos con cierto grado <strong>de</strong> cercanía <strong>de</strong> tal forma que se pueda afirmar que pertenecen<br />

al mismo grupo.<br />

Las técnicas orientadas a la <strong>de</strong>tección <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones se<br />

pue<strong>de</strong>n clasificar en dos ten<strong>de</strong>ncias:<br />

1. Detectar en primer lugar la ubicación <strong>de</strong> calcificaciones individuales para luego<br />

usar algún algoritmo para <strong>de</strong>tectar agruparlas, con cierto grado <strong>de</strong> cercanía.<br />

2. Detectar directamente en la imagen grupos <strong>de</strong> calcificaciones, sin pasar por el<br />

proceso <strong>de</strong> i<strong>de</strong>ntificar la ubicación <strong>de</strong> calcificaciones individuales.<br />

En esta investigación se intenta <strong>de</strong>sarrollar un procedimiento para la <strong>de</strong>tección<br />

automática <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones usando la primera ten<strong>de</strong>ncia. Para <strong>de</strong>tectar<br />

las calcificaciones individuales se usa el filtro DoG (ver la sección 5.1), para<br />

reducir el número <strong>de</strong> potenciales calcificaciones (señales) éstas son clasificadas por una<br />

red neuronal (ver el capítulo 6) y para <strong>de</strong>tectar los agrupamientos <strong>de</strong> microcalcificaciones<br />

se propone una técnica basada en la <strong>de</strong>nsidad <strong>de</strong> ellas por centímetro cuadrado<br />

(ver el capítulo 7).<br />

Para validar la hipótesis <strong>de</strong> la investigación se toma como referencia la información<br />

proporcionada por la base <strong>de</strong> datos <strong>de</strong> la MIAS (ver la subsección 8.2.2), don<strong>de</strong> se indica<br />

si existe algún agrupamiento <strong>de</strong> microcalcificaciones, cuál es su ubicación en la imagen<br />

y si es benigno o maligno.<br />

3


1.2. Definición <strong>de</strong>l problema<br />

El problema que se preten<strong>de</strong> abordar en esta investigación es: dada una base<br />

<strong>de</strong> datos <strong>de</strong> mamografías, conteniendo algunas <strong>de</strong> ellas microcalcificaciones y algunas<br />

<strong>de</strong> estas últimas conformando agrupamientos <strong>de</strong> microcalcificaciones, cómo procesar<br />

las imágenes para <strong>de</strong>tectar agrupamientos <strong>de</strong> calcificaciones <strong>de</strong> tal forma que se logre<br />

minimizar el número <strong>de</strong> falsos negativos; es <strong>de</strong>cir los casos don<strong>de</strong> existiendo realmente<br />

un agrupamiento <strong>de</strong> calcificaciones el sistema no los <strong>de</strong>tecte y por otro lado minimizar<br />

también el número <strong>de</strong> falsos positivos; es <strong>de</strong>cir los casos don<strong>de</strong> no existiendo realmente<br />

un agrupamiento <strong>de</strong> calcificaciones el sistema <strong>de</strong>tecta un agrupamiento.<br />

Resolver este problema permitirá mejorar la precisión <strong>de</strong>l sistema, es <strong>de</strong>cir incrementar<br />

la especificidad <strong>de</strong>l método propuesto (ver la subsección 8.3.1) y por otro lado<br />

al convertirse el sistema en una segunda opinión sobre un mismo caso, incrementar la<br />

productividad (número <strong>de</strong> casos revisados por día) <strong>de</strong>l especialista.<br />

El planteamiento <strong>de</strong>l problema se pue<strong>de</strong> ver más a <strong>de</strong>talle en la figura 1.1. En<br />

la figura 1.1.a, se presentan dos distribuciones <strong>de</strong> probabilidad, la primera es la distribución<br />

<strong>de</strong> probabilidad <strong>de</strong> los verda<strong>de</strong>ros negativos y la segunda es la distribución <strong>de</strong><br />

probabilidad <strong>de</strong> los verda<strong>de</strong>ros positivos. La <strong>de</strong>cisión <strong>de</strong> dón<strong>de</strong> se coloca el umbral que<br />

divi<strong>de</strong> a ambas distribuciones influye en el resultado <strong>de</strong> cada caso. Así, si el umbral se<br />

coloca más a la <strong>de</strong>recha muchos casos serán <strong>de</strong>clarados negativos siendo realmente positivos<br />

y si se coloca más a la izquierda muchos casos serán <strong>de</strong>clarados positivos siendo<br />

realmente negativos.<br />

Igual situación se presenta para las distribuciones <strong>de</strong> probabilidad <strong>de</strong> los falsos<br />

positivos y <strong>de</strong> los falsos negativos (ver la figura En la figura 1.1.b).<br />

Figura 1.1: Relación entre verda<strong>de</strong>ros positivos (V+), verda<strong>de</strong>ros negativos (V-), falsos<br />

positivos (F+) y falsos negativos (F-).<br />

La <strong>de</strong>finición <strong>de</strong>l problema implica que si no se favorece la <strong>de</strong>tección, colocando<br />

fuertes restricciones al procedimiento, el número <strong>de</strong> falso negativos se incrementará,<br />

pero por otro lado, si se favorece la <strong>de</strong>tección <strong>de</strong> todos los posibles casos, sin colocar<br />

4


suficientes restricciones al procedimiento, el número <strong>de</strong> falsos positivos se incrementará.<br />

Ambos extremos resultan ser contraproducentes: en el primer caso, no se <strong>de</strong>tecta<br />

el agrupamiento, permitiendo que la enfermedad progrese, y en el segundo caso, se <strong>de</strong>tectan<br />

casos que no existen, generando falsas alarmas e intervenciones innecesarias. Se<br />

preten<strong>de</strong> buscar un equilibrio entre ambos extremos.<br />

Esta investigación se centra en confirmar que un hallazgo ubicado en la mamografía<br />

correspon<strong>de</strong> o no a una calcificación. La <strong>de</strong>cisión es tomada por un clasificador que<br />

apren<strong>de</strong> un patrón <strong>de</strong> comportamiento en función a una serie <strong>de</strong> características extraídas<br />

<strong>de</strong>s<strong>de</strong> cada una <strong>de</strong> ellas. Determinar que un hallazgo correspon<strong>de</strong> o no a una calcificación<br />

es uno <strong>de</strong> los aportes más importantes <strong>de</strong> este trabajo, dado que servirá para <strong>de</strong>tectar<br />

los agrupamientos.<br />

Con la intención <strong>de</strong> abordar este problema se proponen dos métodos: el primero,<br />

para i<strong>de</strong>ntificar calcificaciones y el segundo para i<strong>de</strong>ntificar agrupamientos <strong>de</strong> calcificaciones<br />

(ver la figura 1.2). El resultado final <strong>de</strong>l sistema es la lista <strong>de</strong> centroi<strong>de</strong>s <strong>de</strong><br />

cada agrupamiento y la lista <strong>de</strong> centroi<strong>de</strong>s <strong>de</strong> las calcificaciones que conforman cada<br />

agrupamiento, <strong>de</strong> esta información se obtiene el número <strong>de</strong> agrupamientos <strong>de</strong> cada<br />

mamografía y el número <strong>de</strong> calcificaciones <strong>de</strong> cada agrupamiento.<br />

Figura 1.2: Procedimientos usados en la solución <strong>de</strong>l problema.<br />

El método para <strong>de</strong>tectar calcificaciones en mamografías hace uso <strong>de</strong>l filtro DoG<br />

(ver la sección 5.1), este método ha sido usado en los trabajos <strong>de</strong> Dengler et al. [20],<br />

Polakowski et al. [71], Führ et al. [31] y Netsch [65]. El filtro DoG se forma por la<br />

diferencia <strong>de</strong> dos filtros gaussianos con diferentes <strong>de</strong>sviaciones estándar. El filtro DoG<br />

es usado frecuentemente para <strong>de</strong>tectar cruces en cero, lo que permite <strong>de</strong>tectar regiones<br />

con contraste local. La formulación <strong>de</strong>l filtro DoG está basada en la búsqueda <strong>de</strong> máximos<br />

y mínimos locales, en esta investigación se busca regiones con máximos locales<br />

que correspon<strong>de</strong>n a los puntos brillantes en la imagen. Los resultados experimentales<br />

<strong>de</strong>muestran que su capacidad para ubicar los máximos locales, <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la relación<br />

σ 1 /σ 2 don<strong>de</strong> σ 1 y σ 2 correspon<strong>de</strong>n a las <strong>de</strong>sviaciones estándar <strong>de</strong> cada uno <strong>de</strong> los filtros;<br />

esta relación <strong>de</strong>be ser optimizada para lograr <strong>de</strong>tectar los máximos contrastes.<br />

Este procedimiento genera proporcionalmente muchos puntos potenciales (falsos positivos),<br />

en promedio sólo el 0.37 % <strong>de</strong> los hallazgos correspon<strong>de</strong>n a microcalcificaciones<br />

(ver la subsección 8.4.4).<br />

5


El método para <strong>de</strong>tectar agrupamientos <strong>de</strong> calcificaciones es diferente al método<br />

para <strong>de</strong>tectar calcificaciones individuales, los agrupamientos pue<strong>de</strong>n ser <strong>de</strong>tectados sólo<br />

<strong>de</strong>spués <strong>de</strong> haber i<strong>de</strong>ntificado las calcificaciones. Grupos <strong>de</strong> 3 o más microcalcificaciones<br />

<strong>de</strong>ntro <strong>de</strong> una área <strong>de</strong> 1 cm 2 , pue<strong>de</strong>n ser consi<strong>de</strong>rados como un agrupamiento. El criterio<br />

usado para <strong>de</strong>tectarlos <strong>de</strong>pen<strong>de</strong>rá <strong>de</strong> la <strong>de</strong>nsidad <strong>de</strong> calcificaciones por cm 2 , las regiones<br />

con mayor <strong>de</strong>nsidad serán elegidas primero.<br />

Las mamografías usadas en esta investigación se tomaron <strong>de</strong> The Mammographic<br />

Image Analysis Society (MIAS [84]). La base <strong>de</strong> datos contiene 322 imágenes <strong>de</strong> las<br />

cuales 22 contienen calcificaciones. En total se encontraron 252 calcificaciones conformando<br />

40 agrupamientos. Varias investigaciones relacionadas utilizaron esta base <strong>de</strong><br />

datos (Antonie [2], Egan [26], Hayken [45], Karssemeijer [50], Norhayati [67], Rangarayyan<br />

[72]).<br />

1.3. Objetivos<br />

El objetivo <strong>de</strong> esta investigación fue <strong>de</strong>sarrollar un procedimiento para la <strong>de</strong>tección<br />

automática <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones en mamografías digitalizadas tal que<br />

se logren minimizar el número <strong>de</strong> falso positivos y <strong>de</strong> falsos negativos <strong>de</strong>tectados por<br />

el sistema.<br />

Con el propósito <strong>de</strong> apoyar a la solución <strong>de</strong>l problema planteado se i<strong>de</strong>ntificaron<br />

las siguientes metas:<br />

1. I<strong>de</strong>ntificar la base <strong>de</strong> datos apropiada para el dominio <strong>de</strong> este problema.<br />

2. Dada la base <strong>de</strong> datos, prepararla <strong>de</strong> tal forma que se pueda validar la hipótesis<br />

<strong>de</strong> la investigación.<br />

3. I<strong>de</strong>ntificar y evaluar técnicas para la <strong>de</strong>tección <strong>de</strong> potenciales calcificaciones.<br />

4. I<strong>de</strong>ntificar y evaluar técnicas para la extracción <strong>de</strong> características <strong>de</strong>s<strong>de</strong> las potenciales<br />

calcificaciones.<br />

5. I<strong>de</strong>ntificar y evaluar técnicas para seleccionar un subconjunto óptimo <strong>de</strong> características<br />

a extraer <strong>de</strong>s<strong>de</strong> las potenciales calcificaciones.<br />

6. I<strong>de</strong>ntificar y evaluar técnicas <strong>de</strong> clasificación para clasificar las potenciales calcificaciones<br />

en dos grupos (es calcificación o no es calcificación).<br />

7. I<strong>de</strong>ntificar y evaluar la técnica apropiada para <strong>de</strong>tectar agrupamientos <strong>de</strong> calcificaciones,<br />

<strong>de</strong>s<strong>de</strong> las calcificaciones <strong>de</strong>tectadas.<br />

8. I<strong>de</strong>ntificar y evaluar la técnica apropiada para extraer características <strong>de</strong>s<strong>de</strong> cada<br />

agrupamiento <strong>de</strong> calcificaciones.<br />

6


9. I<strong>de</strong>ntificar y evaluar la técnica apropiada para seleccionar un subconjunto óptimo<br />

<strong>de</strong> características a extraer <strong>de</strong>s<strong>de</strong> cada agrupamiento.<br />

10. Definir la técnica <strong>de</strong> clasificación para clasificar los agrupamientos <strong>de</strong>tectados en<br />

dos grupos (es benigno o es maligno).<br />

Los objetivos se cumplieron satisfactoriamente. La base <strong>de</strong> datos seleccionada fue<br />

obtenida <strong>de</strong> la MIAS. El procedimiento usado para preparar la base <strong>de</strong> datos correspon<strong>de</strong><br />

al proceso <strong>de</strong> extracción <strong>de</strong> características. La técnica usada para i<strong>de</strong>ntificar potenciales<br />

calcificaciones fue el filtro DoG. Se extrajeron 47 características relacionadas<br />

con el contraste, la forma, los momentos <strong>de</strong> la secuencia <strong>de</strong>l contorno y los momentos<br />

geométricos invariantes <strong>de</strong>s<strong>de</strong> cada calcificación potencial. Se aplicó una <strong>de</strong>rivación <strong>de</strong>l<br />

algoritmo <strong>de</strong> búsqueda secuencial hacia a<strong>de</strong>lante para la selección <strong>de</strong> un subconjunto<br />

<strong>de</strong> características tal que el <strong>de</strong>sempeño <strong>de</strong>l clasificador se aproximara al máximo. Una<br />

red neuronal <strong>de</strong> tres capas fue usada como clasificador en esta investigación. Se usó el<br />

criterio <strong>de</strong> la máxima <strong>de</strong>nsidad <strong>de</strong> puntos cercanos <strong>de</strong>ntro <strong>de</strong> un radio, para <strong>de</strong>tectar<br />

los agrupamientos <strong>de</strong> calcificaciones. Se extrajeron 19 características relacionadas con<br />

la forma, el área y el contraste <strong>de</strong>s<strong>de</strong> cada agrupamiento. Se aplicó la misma técnica<br />

<strong>de</strong> selección <strong>de</strong> características usada en la etapa <strong>de</strong> <strong>de</strong>tección <strong>de</strong> calcificaciones para<br />

seleccionar características en la etapa <strong>de</strong> <strong>de</strong>tección <strong>de</strong> agrupamientos.<br />

1.4. Preguntas <strong>de</strong> la investigación<br />

La investigación pretendió respon<strong>de</strong>r algunas preguntas en el dominio <strong>de</strong> la <strong>de</strong>tección<br />

<strong>de</strong> calcificaciones y <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones.<br />

1. Detección <strong>de</strong> calcificaciones.<br />

Si el método para la <strong>de</strong>tección <strong>de</strong> potenciales calcificaciones (señales) usando el<br />

filtro DoG permite i<strong>de</strong>ntificar la mayor cantidad <strong>de</strong> señales verda<strong>de</strong>ras positivas.<br />

2. Tipo <strong>de</strong> tejido predominante.<br />

Si el tipo <strong>de</strong> tejido predominante en la mamografía influye en el <strong>de</strong>sempeño <strong>de</strong> la<br />

técnica propuesta.<br />

3. Extracción <strong>de</strong> características.<br />

Si las características extraídas <strong>de</strong>s<strong>de</strong> las señales proporcionan la información suficiente<br />

para clasificarlos en calcificaciones.<br />

4. Clasificador.<br />

Si una red neuronal usada como clasificador proporciona resultados aceptables<br />

para clasificar señales en calcificaciones.<br />

7


5. Gran cantidad <strong>de</strong> verda<strong>de</strong>ros negativos.<br />

Si el clasificador neuronal usado en esta investigación proporciona resultados<br />

aceptables para discriminar las calcificaciones verda<strong>de</strong>ras positivas <strong>de</strong> las verda<strong>de</strong>ras<br />

negativas, dado la gran cantidad <strong>de</strong> verda<strong>de</strong>ras negativas que <strong>de</strong>tecta el<br />

filtro DoG.<br />

6. Selección <strong>de</strong> características.<br />

Si el or<strong>de</strong>namiento <strong>de</strong> características en función a la ganancia <strong>de</strong> información<br />

proporciona resultados cercanos al método <strong>de</strong> búsqueda secuencial hacia a<strong>de</strong>lante.<br />

7. <strong>Agrupamientos</strong>.<br />

Si <strong>de</strong>tectar en primer lugar calcificaciones y luego agrupamientos <strong>de</strong> ellas proporciona<br />

mejores resultados que <strong>de</strong>tectar los agrupamientos directamente.<br />

8. Diagnóstico.<br />

Si la propiedad benigna o maligna pue<strong>de</strong> ser pronosticada para toda la imagen,<br />

para cada agrupamiento o para cada calcificación individual.<br />

1.5. Hipótesis<br />

La hipótesis que se preten<strong>de</strong> <strong>de</strong>mostrar en esta investigación intenta comparar<br />

dos formas <strong>de</strong> pronosticar el diagnóstico <strong>de</strong> la mamografía (benigna o maligna), en el<br />

primer caso se intenta pronosticar consi<strong>de</strong>rando las propieda<strong>de</strong>s <strong>de</strong> cada agrupamiento<br />

<strong>de</strong>tectado (uno o varios), en el segundo caso se intenta pronosticar consi<strong>de</strong>rando las<br />

propieda<strong>de</strong>s <strong>de</strong> un solo agrupamiento conformado por todas las calcificaciones <strong>de</strong> la<br />

mamografía.<br />

La hipótesis establece que consi<strong>de</strong>rar a todas la calcificaciones <strong>de</strong> una imagen como<br />

parte <strong>de</strong> un solo agrupamiento (ver la figura 1.3.a) no proporciona suficiente información<br />

que si se consi<strong>de</strong>ra que una imagen pue<strong>de</strong> contener uno o más agrupamientos <strong>de</strong><br />

calcificaciones (ver la figura 1.3.b).<br />

Para comparar los dos procedimientos, las características a extraer en cada caso<br />

siguen el mismo procedimiento como se menciona en la sección 7.2. La hipótesis<br />

<strong>de</strong>muestra en la sección 8.5.<br />

1.6. Metodología <strong>de</strong> la investigación<br />

Consi<strong>de</strong>rando la hipótesis que se intenta <strong>de</strong>mostrar y el objetivo <strong>de</strong> la investigación,<br />

la metodología adoptada fue la cualitativa, dado que se pretendió <strong>de</strong>terminar<br />

qué procedimiento era el más apropiado para <strong>de</strong>terminar la ubicación y el número <strong>de</strong><br />

agrupamientos <strong>de</strong> calcificaciones que existen en una mamografía.<br />

8


Figura 1.3: Número <strong>de</strong> agrupamientos <strong>de</strong> microcalcificaciones en una imagen.<br />

El diseño fue experimental, dado que se <strong>de</strong>seaba comprobar el <strong>de</strong>sempeño <strong>de</strong>l<br />

procedimiento, ante variaciones en sus parámetros y técnicas.<br />

Para validar los resultados <strong>de</strong> la investigación se consi<strong>de</strong>ró una muestra <strong>de</strong> 22<br />

imágenes tomadas <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> la MIAS, conteniendo 252 calcificaciones en<br />

total; 15 mamografías contienen 1 agrupamiento <strong>de</strong> microcalcificaciones, 4 mamografías<br />

contienen 2 agrupamientos <strong>de</strong> microcalcificaciones y 3 mamografías contienen más <strong>de</strong><br />

3 agrupamientos <strong>de</strong> microcalcificaciones.<br />

La investigación se basó en los siguientes métodos:<br />

1. Recopilación documental.<br />

Se revisó un conjunto <strong>de</strong> investigaciones relacionadas en revistas y libros que<br />

permitió conocer con mayor <strong>de</strong>talle los avances logrados a la fecha en este tipo<br />

<strong>de</strong> investigación.<br />

2. Experimentación.<br />

Se realizó un conjunto <strong>de</strong> experimentos en un ambiente controlado para probar<br />

el <strong>de</strong>sempeño <strong>de</strong>l procedimiento propuesto.<br />

3. Entrevista.<br />

Se visitó a un especialista en Oncología <strong>de</strong>l Hospital San José en la ciudad <strong>de</strong><br />

Monterrey, N.L., México, con quién se intercambiaron opiniones acerca <strong>de</strong> la investigación.<br />

4. Desarrollo <strong>de</strong> algoritmos.<br />

Se <strong>de</strong>sarrolló un conjunto <strong>de</strong> algoritmos usando MATLAB R Release 12, para<br />

soportar la funcionalidad requerida por la investigación.<br />

9


1.7. Alcances y limitaciones<br />

Durante el <strong>de</strong>sarrollo <strong>de</strong> la investigación se tomaron algunas <strong>de</strong>cisiones que limitaron<br />

el alcance <strong>de</strong>l estudio. Entre las principales tenemos:<br />

1. Técnica <strong>de</strong> diagnóstico.<br />

Esta investigación se orienta al uso <strong>de</strong> mamografías digitalizadas, como técnica<br />

<strong>de</strong> diagnóstico. El especialista pue<strong>de</strong> hacer uso <strong>de</strong> otras técnicas para confirmar<br />

o <strong>de</strong>scartar este diagnóstico ((ver la subsección 2.3.2)), entre las que tenemos: el<br />

autoexamen, la ecografía y la biopsia.<br />

2. Tipo <strong>de</strong> hallazgo.<br />

En una mamografía se pue<strong>de</strong>n encontrar los siguientes hallazgos: masas, calcificaciones,<br />

distorsiones arquitecturales y <strong>de</strong>nsidad asimétrica. Esta investigación se<br />

orienta al dominio <strong>de</strong> las calcificaciones (ver la subsección 2.6) y <strong>de</strong>ntro <strong>de</strong> ellas<br />

a las microcalcificaciones (ver la subsección 2.6.2) y se <strong>de</strong>scartan las macrocalcificaciones.<br />

En el transcurso <strong>de</strong> documento se mencionará el término calcificación<br />

como sinónimo <strong>de</strong> microcalcificación.<br />

3. Base <strong>de</strong> datos.<br />

Se hace uso <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> la MIAS ([84]), conformada por 322 imágenes,<br />

<strong>de</strong> las cuales 22 tienen al menos una calcificación, las imágenes fueron digitalizadas<br />

a 8 bits (256 niveles <strong>de</strong> gris), con un tamaño <strong>de</strong> 1024x1024 pixeles, la resolución<br />

<strong>de</strong> estas imágenes es <strong>de</strong> 200 µ/pixel. También se dispone <strong>de</strong> imágenes <strong>de</strong> mayor<br />

resolución (50 µ/pixel), que no fueron usadas en esta investigación.<br />

4. Datos <strong>de</strong> prueba.<br />

Cada imagen <strong>de</strong> la MIAS tiene anexado una lista <strong>de</strong> los hallazgos (ver el cuadro<br />

8.2), específicamente un centroi<strong>de</strong> y un radio <strong>de</strong>ntro <strong>de</strong>l cual se ubica la lesión.<br />

Esto es útil si se trata <strong>de</strong> masas, distorsiones arquitecturales o agrupamientos<br />

<strong>de</strong>finidos, pero no es útil cuando se trata <strong>de</strong> calcificaciones individuales, dado que<br />

el área indicada pue<strong>de</strong> contener muchas calcificaciones y otros objetos que no lo<br />

son. Para resolver este problema se consi<strong>de</strong>ró un conjunto <strong>de</strong> procedimientos, para<br />

i<strong>de</strong>ntificar cada calcificación y validar su ubicación, in<strong>de</strong>pendiente <strong>de</strong>l proceso<br />

general <strong>de</strong> la investigación (ver la subsección 8.2.4).<br />

5. Resultados.<br />

Esta investigación preten<strong>de</strong> <strong>de</strong>tectar agrupamientos <strong>de</strong> calcificaciones entregando<br />

como resultado el centroi<strong>de</strong> <strong>de</strong>l agrupamiento y la lista <strong>de</strong> centroi<strong>de</strong>s <strong>de</strong> cada<br />

calcificación (ver la sección 7.1). Esto implica que el procedimiento pue<strong>de</strong> afirmar<br />

si en una mamografía existe o no existe al menos un agrupamiento y otro lado<br />

pue<strong>de</strong> afirmar si el agrupamiento es benigno o maligno.<br />

10


6. <strong>Agrupamientos</strong> <strong>de</strong> calcificaciones <strong>de</strong>s<strong>de</strong> calcificaciones.<br />

La técnica usada para <strong>de</strong>tectar agrupamiento <strong>de</strong> calcificaciones <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la<br />

técnica usada para <strong>de</strong>tectar calcificaciones individuales. Este procedimiento asegura<br />

que los componentes <strong>de</strong> cada agrupamiento correspon<strong>de</strong>n a una calcificación.<br />

Trabajos relacionados intentaron <strong>de</strong>terminar los agrupamientos directamente <strong>de</strong>s<strong>de</strong><br />

la imagen (Diyana et. al.[23] y Lemaur et. al [58]).<br />

7. Clasificador.<br />

Existen diferentes técnicas para clasificar patrones <strong>de</strong> datos, entre las que se<br />

tienen re<strong>de</strong>s neuronales, reglas <strong>de</strong> asociación, árboles <strong>de</strong> <strong>de</strong>cisión, etc. En esta<br />

investigación se hace uso <strong>de</strong> una red neuronal <strong>de</strong> retropropagación en todos los<br />

procedimientos don<strong>de</strong> se requiere clasificar patrones. Esta <strong>de</strong>cisión se tomó por la<br />

capacidad <strong>de</strong> las re<strong>de</strong>s neuronales <strong>de</strong> adaptarse a patrones <strong>de</strong> características con<br />

comportamientos no lineales, su baja sensibilidad al ruido y finalmente porque no<br />

es necesario discretizar los datos. La limitación <strong>de</strong> la técnica es que no se pue<strong>de</strong><br />

conocer cómo es que toma sus <strong>de</strong>cisiones.<br />

1.8. Organización <strong>de</strong>l documento<br />

Los capítulos siguientes <strong>de</strong>l documento están organizados <strong>de</strong> la siguiente manera:<br />

En el capítulo 2, se hace una breve revisión <strong>de</strong> trabajos anteriores y se revisa la<br />

bibliografía relacionada. Por otro lado se presenta el marco <strong>de</strong> referencia sobre el que<br />

se <strong>de</strong>sarrolla esta investigación. Se revisan algunos conceptos sobre cáncer <strong>de</strong> mama,<br />

visión computacional y técnicas para la <strong>de</strong>tección <strong>de</strong> calcificaciones.<br />

En el capítulo 3, se expone el mo<strong>de</strong>lo <strong>de</strong> solución usado en el <strong>de</strong>sarrollo <strong>de</strong>l trabajo.<br />

En el capítulo 4, se expone el método usado para el preprocesamiento <strong>de</strong> las<br />

imágenes.<br />

En el capítulo 5, se expone el método usado para <strong>de</strong>tectar potenciales calcificaciones<br />

(señales).<br />

En el capítulo 6, se expone el método <strong>de</strong> extracción <strong>de</strong> características <strong>de</strong>s<strong>de</strong> cada<br />

señal i<strong>de</strong>ntificada y su posterior clasificación usando una red neuronal.<br />

En el capítulo 7, se expone el método para <strong>de</strong>tectar agrupamientos <strong>de</strong> calcificaciones.<br />

En el capítulo 8, se <strong>de</strong>talla el experimento realizado para probar la hipótesis<br />

planteada.<br />

En el capítulo 9, se exponen las conclusiones <strong>de</strong> la investigación y las recomendaciones<br />

para trabajos futuros.<br />

11


Capítulo 2<br />

Revisión <strong>de</strong> la Literatura<br />

Diversos investigadores <strong>de</strong>s<strong>de</strong> la década <strong>de</strong> los 80’s vienen <strong>de</strong>sarrollando trabajos<br />

relacionados al dominio <strong>de</strong> las mamografías, entre los primeros trabajos se tienen los<br />

<strong>de</strong> Gresson et al. [38], Chang et al. [12], [13], Gordon et al.[37] y Feig et al. [29]. La<br />

motivación frecuente <strong>de</strong> estos trabajos es diseñar métodos y sistemas para apoyar al<br />

radiólogo en el diagnóstico <strong>de</strong> las mamografías. Esto implica que el sistema no toma la<br />

<strong>de</strong>cisión final acerca <strong>de</strong>l caso que se analiza, dado que se requiere todavía la confirmación<br />

<strong>de</strong> un especialista.<br />

Algunos trabajos preten<strong>de</strong>n diseñar sistemas para el diagnóstico automático, es<br />

<strong>de</strong>cir que el sistema tome una <strong>de</strong>cisión. Este objetivo tiene amplias dificulta<strong>de</strong>s por<br />

dos motivos: primero, la naturaleza <strong>de</strong> la enfermedad, don<strong>de</strong> casos benignos se pue<strong>de</strong>n<br />

confundir con casos malignos y viceversa, y segundo, la naturaleza <strong>de</strong> la mamografía.<br />

La mamografía es una representación bidimensional <strong>de</strong>l grado <strong>de</strong> atenuación con que<br />

los rayos X pasan a través <strong>de</strong> la mama, conformada por tejido blando, lo que pue<strong>de</strong><br />

generar pérdidas <strong>de</strong> información acerca <strong>de</strong> la profundidad <strong>de</strong> un hallazgo y <strong>de</strong> sus<br />

características.<br />

Esta investigación se ubica entre los primeros, es <strong>de</strong>cir un sistema <strong>de</strong> apoyo a la<br />

toma <strong>de</strong> <strong>de</strong>cisiones asistido por una computadora don<strong>de</strong> la <strong>de</strong>cisión final lo toma el<br />

especialista que usa el sistema. Con este propósito se intenta extraer la mayor cantidad<br />

<strong>de</strong> información <strong>de</strong>s<strong>de</strong> regiones sospechosas <strong>de</strong> la imagen, procesarlas y presentarlas<br />

para que el sistema justifique su propuesta <strong>de</strong> diagnóstico y permita al especialista<br />

confirmarla o negarla.<br />

Se <strong>de</strong>scriben a continuación algunos trabajos encontrados en publicaciones especializadas,<br />

que han servido como referencia para el <strong>de</strong>sarrollo <strong>de</strong> esta investigación.<br />

2.1. Investigaciones recientes<br />

Múltiples trabajos <strong>de</strong> investigación, informes y tesis se han <strong>de</strong>sarrollado con la<br />

finalidad <strong>de</strong> <strong>de</strong>tectar calcificaciones y agrupamiento <strong>de</strong> calcificaciones en mamografías<br />

digitalizadas. Estos pue<strong>de</strong>n ser clasificados en función a la técnica usada, así se tienen<br />

13


las investigaciones que se presentan el cuadro 2.1.<br />

Cuadro 2.1: Resumen <strong>de</strong> artículos relacionados con la <strong>de</strong>tección <strong>de</strong> calcificaciones y<br />

agrupamiento <strong>de</strong> calcificaciones.<br />

Autores Año Método<br />

µC Cl Título<br />

Betal et al.<br />

[6]<br />

1997 MM x Segmentation and numerical analysis of microcalcifications on<br />

mammograms using mathematical morphology.<br />

Zhao et al. 1992 MM x Morphology on <strong>de</strong>tection of calcifications in mammograms<br />

[93]<br />

Führ et al. 2003 LoG x Cluster-oriented Detection of Microcalcifications in Simulated<br />

[31]<br />

Low-Dose Mammography.<br />

Fu, et al. [32] 2003 TX x Image Enhancement, Feature Extraction and Classification of<br />

Microcalcifications in Mammograms.<br />

Papadopoulosa<br />

[70]<br />

2002 TX x An automatic microcalcification <strong>de</strong>tection system based on a<br />

hybrid neural <strong>net</strong>work classifier<br />

El-Naqa, et 2002 SVM x A Support Vector Machine Approach for Detection of Microcalcifications.<br />

al [27]<br />

Bazzani, et 2000 SVM x x Automatic <strong>de</strong>tection of clustered microcalcifications in digital<br />

al. [1]<br />

mammograms using an SVM classifier<br />

Li, et al. [59] 1997 FR x Fractal mo<strong>de</strong>ling and segmentation for the enhancement of microcalcifications<br />

in digital mammograms<br />

Bocchi, et al.<br />

[7]<br />

2004 FR x x Detection of single and clustered microcalcifications in mammograms<br />

using fractals mo<strong>de</strong>ls and neural metworks<br />

Yu, et al. [91] 2000 RN x x CAD System for the automatic <strong>de</strong>tection of clustered microcalcifications<br />

in digitized mammogram films<br />

Treiber et al.<br />

[86]<br />

2003 AD x An adaptive algorithm for the <strong>de</strong>tection of microcalcifications<br />

in simulated low-dose mammography<br />

Nishikawa<br />

[66]<br />

1993 DI x Computer ai<strong>de</strong>d <strong>de</strong>tection of clustered microcalcification: An<br />

improved method for grouping <strong>de</strong>tected signals<br />

Ricketts et 1992 DI x The automated <strong>de</strong>tection of clusters of microcalcifications<br />

al. [73]<br />

FR Fractales MM Matemática morfológica LoG Laplaciano <strong>de</strong>l gaussiano<br />

AD Adaptativo DI Diferencia <strong>de</strong> imágenes DoG Diferencia <strong>de</strong> gaussianos<br />

TX Textural RN Re<strong>de</strong>s neuronales SVM Máquina <strong>de</strong> vectores soporte<br />

µC : Técnica orientada a i<strong>de</strong>ntificar microcalcificaciones<br />

Cl : Técnica orientada a i<strong>de</strong>ntificar agrupamientos <strong>de</strong> microcalcificaciones<br />

Betal [6] utilizó matemática morfológica para <strong>de</strong>tectar calcificaciones. Aplicó un<br />

algoritmo <strong>de</strong> mejoramiento <strong>de</strong> imágenes para resaltar bor<strong>de</strong>s y suavizar regiones homogéneas.<br />

Luego aplicó operadores <strong>de</strong> apertura, cierre y binarización para obtener<br />

marcadores únicos para cada microcalcificación. El umbral <strong>de</strong> binarización fue <strong>de</strong>terminado<br />

manualmente por un radiólogo. La segmentación <strong>de</strong> las calcificaciones fue posible<br />

14


aplicando el algoritmo ”watershed”. La etapa final implicó el análisis numérico <strong>de</strong> los<br />

calcificaciones <strong>de</strong>tectadas. La información sobre el área y las dimensiones <strong>de</strong> las calcificaciones<br />

fueron usadas. Las calcificaciones benignas tien<strong>de</strong>n a ser estructuras gran<strong>de</strong>s<br />

(mas <strong>de</strong> 1 mm), mientras que las malignas tien<strong>de</strong>n a ser más pequeños.<br />

Nishikawa [66] <strong>de</strong>sarrolló una técnica para la <strong>de</strong>tección automática <strong>de</strong> agrupamientos<br />

<strong>de</strong> calcificaciones. El método consiste <strong>de</strong> tres etapas: Primero, reduce las estructuras<br />

<strong>de</strong>l fondo <strong>de</strong> la imagen eliminando las estructuras normales, mediante el filtrado <strong>de</strong> la<br />

imagen. Segundo, potenciales calcificaciones (señales) son i<strong>de</strong>ntificadas por medio <strong>de</strong><br />

una binarización global, una erosión morfológica y una binarización local. Tercero, las<br />

señales falsas son eliminadas examinando el espectro <strong>de</strong> energía <strong>de</strong> señales individuales,<br />

<strong>de</strong>terminando la distribución espacial <strong>de</strong> conjunto <strong>de</strong> señales y examinando la relación<br />

entre el tamaño, la forma y el valor <strong>de</strong>l pixel <strong>de</strong>l fondo <strong>de</strong> calcificaciones.<br />

Ricketts et al. [73] emplearon un algoritmo <strong>de</strong> varias etapas para la <strong>de</strong>tección<br />

automatizada <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones. Primero asumieron que las calcificaciones<br />

son pequeños grupos <strong>de</strong> pixeles, <strong>de</strong> formas lineales u ovaladas, más brillantes que<br />

sus pixeles vecinos, con niveles <strong>de</strong> gris relativamente constantes y que tienen bor<strong>de</strong>s bien<br />

<strong>de</strong>finidos. Finalmente, discutieron que los calcificaciones son significativas solamente si<br />

se presentan agrupadas. De acuerdo con estos supuestos, utilizaron un procedimiento<br />

que implicaba seis etapas: <strong>de</strong>tección <strong>de</strong> bor<strong>de</strong>, generación <strong>de</strong> contornos, localización<br />

<strong>de</strong> potenciales calcificaciones (señales) usando un grafo, extracción <strong>de</strong> la característica,<br />

clasificación <strong>de</strong> las señales y <strong>de</strong>tección <strong>de</strong> agrupamientos. Llegaron a obtener el 91.75 %<br />

<strong>de</strong> efectividad en el clasificador para las calcificaciones. Lograron el 100 % <strong>de</strong> verda<strong>de</strong>ros<br />

positivos con 0 % <strong>de</strong> falsos positivos usando el método <strong>de</strong> restitución y el 98 % <strong>de</strong> verda<strong>de</strong>ros<br />

positivos con el 0 % <strong>de</strong> falsos negativos usando el método <strong>de</strong> validación cruzada<br />

<strong>de</strong> K-conjuntos para los agrupamientos <strong>de</strong> calcificaciones.<br />

Zhao et al. [93] <strong>de</strong>sarrollaron un método para la binarización adaptativa en mamografías.<br />

El trabajo combina operaciones <strong>de</strong> filtrado morfológico con una base <strong>de</strong> reglas.<br />

El objetivo <strong>de</strong>l trabajo es <strong>de</strong>tectar regiones sospechosas en una mamografía y proporcionar<br />

información acerca <strong>de</strong> la localización <strong>de</strong> ciertas calcificaciones con formas y<br />

tamaños pre<strong>de</strong>finidos, para el examen <strong>de</strong> un radiólogo. Lograron encontrar una función<br />

<strong>de</strong> binarización adaptativa para operaciones morfológicas. Se usó la forma, el tamaño y<br />

la <strong>de</strong>nsidad <strong>de</strong> la señal para encontrar la función adaptativa. El trabajo se <strong>de</strong>sarrolló en<br />

cinco pasos: primero, preprocesar la imagen para eliminar el ruido <strong>de</strong>l fondo, segundo,<br />

obtener información <strong>de</strong>l esqueleto <strong>de</strong> la señal y <strong>de</strong>terminar el tamaño <strong>de</strong> la sombra<br />

<strong>de</strong>l esqueleto usando operadores morfológicos, tercero, seleccionar el umbral <strong>de</strong> binarización<br />

consi<strong>de</strong>rando el tamaño <strong>de</strong> la señal, cuarto, clasificar las regiones sospechosas<br />

consi<strong>de</strong>rando formas y tamaños pre<strong>de</strong>finidos <strong>de</strong> las señales y quinto, reconstruir los<br />

niveles gris sólo alre<strong>de</strong>dor <strong>de</strong> las regiones sospechosas. Para los pasos tercero y cuarto<br />

fue necesario una base <strong>de</strong> reglas proporcionada por radiólogos.<br />

El-Naqa, et al [27], <strong>de</strong>sarrollaron un método para la <strong>de</strong>tección <strong>de</strong> agrupamientos<br />

15


<strong>de</strong> calcificaciones basado en la máquina <strong>de</strong> vectores soporte (SVM), en el trabajo se<br />

propone un esquema <strong>de</strong> aprendizaje sucesivo para mejorar el <strong>de</strong>sempeño <strong>de</strong>l procedimiento.<br />

La SVM es una técnica <strong>de</strong> aprendizaje mecánico, basado en el principio <strong>de</strong><br />

minimizar el riesgo estructural, el cual tiene buen comportamiento cuando es aplicado<br />

a problemas fuera <strong>de</strong> los datos <strong>de</strong> entrenamiento. El problema <strong>de</strong> <strong>de</strong>tección <strong>de</strong> calcificaciones<br />

es formulado como un problema <strong>de</strong> aprendizaje supervisado y se aplica la SVM<br />

como un algoritmo <strong>de</strong> <strong>de</strong>tección. La SVM se aplica a cada región <strong>de</strong> la imagen para<br />

verificar si contiene o no una microcalcificación.<br />

2.2. Base <strong>de</strong> datos <strong>de</strong> imágenes<br />

Para comprobar los resultados obtenidos por sistemas <strong>de</strong> apoyo al diagnóstico<br />

<strong>de</strong> cáncer <strong>de</strong> mama se requiere que los investigadores usen fuentes <strong>de</strong> información<br />

comunes tal que se pueda comparar los resultados obtenidos por los métodos propuestos.<br />

Múltiples bases <strong>de</strong> datos han sido usados para probar los métodos propuestos por<br />

diversos investigadores(ver el cuadro 2.2). Dos <strong>de</strong> las bases <strong>de</strong> datos frecuentemente<br />

usadas son las siguientes.<br />

1. MIAS.<br />

Esta base <strong>de</strong> datos fue <strong>de</strong>sarrollada por The Mammographic Image Analysis Society<br />

[84]. Contiene 322 imágenes; 204 normales y 118 con algún hallazgo, <strong>de</strong><br />

los cuales 66 son benignas y 52 malignas. Los hallazgos que se pue<strong>de</strong>n encontrar<br />

son calcificaciones (25 casos), masas circunscritas (20 casos), masas espiculadas<br />

(21 casos), masas mal <strong>de</strong>finidas (15 casos), distorsión arquitectural (20 casos) y<br />

asimetría (17 casos).<br />

De las 322 imágenes, 25 contienen al menos una calcificación, pero en esta investigación<br />

sólo se ha usado 22 <strong>de</strong> ellas (ver la subsección 8.2.2). De estas últimas 9<br />

son benignas y 13 son malignas. Las imágenes fueren digitalizadas a 50 µ/pixel<br />

y a 200 µ/pixel. En esta investigación se usan imágenes <strong>de</strong> 200 µ/pixel. La base<br />

<strong>de</strong> datos <strong>de</strong> alta resolución (50 µ/pixel) pue<strong>de</strong> ser adquirida y la base <strong>de</strong> datos<br />

<strong>de</strong> baja resolución pue<strong>de</strong> ser bajada <strong>de</strong>s<strong>de</strong> el servidor <strong>de</strong> la MIAS.<br />

2. DDSM.<br />

Esta base <strong>de</strong> datos fue <strong>de</strong>sarrollada por Nico Karssemeijer <strong>de</strong>l <strong>de</strong>partamento <strong>de</strong><br />

radiología <strong>de</strong>l Hospital Universitario Nijmegen [46]. Contiene 2620 casos, clasificados<br />

según el sistema BI-RADS. Están organizados en 4 volúmenes: normal<br />

(695 casos), cáncer (914 casos) y benignos (1011 casos). 100 <strong>de</strong> los casos contienen<br />

al menos una calcificación, los cuales pue<strong>de</strong>n ser dispuestos como 50 para<br />

entrenamiento y 50 para prueba. Cada caso <strong>de</strong> la base <strong>de</strong> datos está conforma-<br />

16


do por 4 imágenes, 2 <strong>de</strong>l lado <strong>de</strong>recho y dos <strong>de</strong>l izquierdo. Las imágenes fueren<br />

digitalizadas a 100 µ/pixel.<br />

Cuadro 2.2: Base <strong>de</strong> datos <strong>de</strong> mamografías.<br />

Base <strong>de</strong> Imágenes Tamaño Bits/pixel Resolución Imágenes con calcificaciones<br />

Datos<br />

MIAS [84] 322 1024 x 1024 8 50 µ/pixel 22<br />

MIAS 322 2600 x 4320 8 200 µ/pixel 22<br />

DDSM [46] 2620 4104 x 5824 12 100 µ/pixel 100<br />

En esta investigación se hace uso <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> la MIAS con imágenes<br />

<strong>de</strong> baja resolución. Múltiples trabajos <strong>de</strong> investigación hicieron uso <strong>de</strong> esta base <strong>de</strong><br />

datos para la <strong>de</strong>tección <strong>de</strong> calcificaciones (ver el cuadro 2.3) y para la <strong>de</strong>tección <strong>de</strong><br />

agrupamientos <strong>de</strong> calcificaciones (ver el cuadro 2.4).<br />

Cuadro 2.3: Trabajos <strong>de</strong> investigación que usaron la base <strong>de</strong> datos <strong>de</strong> la MIAS para la<br />

<strong>de</strong>tección <strong>de</strong> calcificaciones.<br />

Autores Año Método<br />

Lasztovicza<br />

et al. [56]<br />

Sajda et al.<br />

[75]<br />

Melloul et al.<br />

[63]<br />

Resolución<br />

Título<br />

2003 RN 200µm<br />

/pixel<br />

Neural Network Based Microcalcification Detection in a<br />

Mammographic CAD System<br />

2002 RN (*) Learning Contextual Relationships in Mammograms Using<br />

a Hierarchical Pyramid Neural Network<br />

2002 MF (*) Segmentation of microcalcification in X-ray mammograms<br />

using entropy thresholding<br />

Gulsrud [39] 2001 TX 50µm Analysis of mammographic microcalcifications using a<br />

/pixel computationally efficient filter bank<br />

MeGarry 1999 DoG (*) Performance Of The Generalised Gaussian Distribution<br />

[62]<br />

For Detection Of Calcifications In Mammographic Images<br />

Sklansky et 1998 MF (*) A neurodatabase system for mammographic screening<br />

al. [80]<br />

Wu et al. [90] 1997 RN (*) Image feature analysis for classification of microcalcifications<br />

in digital mammography: neural <strong>net</strong>works and ge<strong>net</strong>ic<br />

algorithms<br />

Dinten et al.<br />

[22]<br />

1996 TX (*) Features extraction for a precise characterization of microcalcifications<br />

in mammograms<br />

(*) Resolución no indicada.<br />

Estos trabajos fueron usados como referencia para el <strong>de</strong>sarrollo <strong>de</strong> esta investigación.<br />

En cada cuadro se indica la técnica y el nivel <strong>de</strong> resolución <strong>de</strong> la base <strong>de</strong> datos<br />

usada (no todos mencionan la resolución usada), así Lasztovicza [56] y Strausz [82]<br />

usaron las imágenes <strong>de</strong> baja resolución (200 µ/pixel) y Gulsrud [39], [41], Halkiotis [44]<br />

y Papadopoulosa [70] usaron las imágenes <strong>de</strong> alta resolución (50 µ/pixel).<br />

17


Cuadro 2.4: Trabajos <strong>de</strong> investigación que usaron la base <strong>de</strong> datos <strong>de</strong> la MIAS para la<br />

<strong>de</strong>tección <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones.<br />

Autores Año Métodlución<br />

Reso-<br />

Título<br />

Diyana et al.<br />

[23]<br />

2003 MF (*) A comparison of clustered microcalcifications automated<br />

<strong>de</strong>tection methods in digital mammogram<br />

Lemaur et al.<br />

[58]<br />

2003 WV (*) Highly Regular Wavelets for the Detection of Clustered<br />

Microcalcifications in Mammograms<br />

Strausz et al. 2003 TX 200µm Intelligent Solution for Mammography Image Diagnosis<br />

[82]<br />

/pixel<br />

Halkiotis et 2002 MF 50µm Computer-ai<strong>de</strong>d <strong>de</strong>tection of clustered microcalcifications<br />

al. [44]<br />

/pixel in digital mammograms<br />

Gulsrud [40] 2002 TX 200µm Computer-Ai<strong>de</strong>d Diagnosis in Digital Mammography<br />

/pixel<br />

Papadopoulosa<br />

et al.[70]<br />

2002 RN 50µm<br />

/pixel<br />

An automatic microcalcification <strong>de</strong>tection system based on<br />

a hybrid neural <strong>net</strong>work classifier<br />

Gulsrud et 2001 TX 50µm Detection of clustered microcalcifications in compressed<br />

al. [41]<br />

/pixel mammograms<br />

Gulsrud et 2000 TX (*) Optimal Filter for Detection of Clustered Microcalcifications<br />

al. [42]<br />

Lado et al. 1998 WV (*) Evaluation of an automated wavelet-based system <strong>de</strong>dicated<br />

[55]<br />

to the <strong>de</strong>tection of clustered microcalcifications in<br />

digital mammograms<br />

Norhayati et<br />

al. [67]<br />

1997 TX (*) Automated <strong>de</strong>tection of clustered microcalcifications on<br />

mammograms. CAD system application to MIAS database<br />

(*) Resolución no indicada.<br />

2.3. Cáncer <strong>de</strong> mama<br />

El cáncer <strong>de</strong> mama es una <strong>de</strong> las mayores causas <strong>de</strong> mortalidad <strong>de</strong> mujeres <strong>de</strong> edad<br />

media, especialmente en las gran<strong>de</strong>s ciuda<strong>de</strong>s. Este tipo <strong>de</strong> cáncer se pue<strong>de</strong> <strong>de</strong>tectar<br />

tempranamente a través <strong>de</strong> exámenes clínicos y exploratorios.<br />

2.3.1. Factores <strong>de</strong> riesgo<br />

La variación geográfica en cuanto a inci<strong>de</strong>ncia y mortalidad, entre los diferentes<br />

países, sugiere que el riesgo <strong>de</strong> cáncer <strong>de</strong> mama está <strong>de</strong>terminado por factores ambientales<br />

y <strong>de</strong> estilo <strong>de</strong> vida. Se han i<strong>de</strong>ntificado muchos factores <strong>de</strong> riesgo para el cáncer<br />

<strong>de</strong> mama, sin embargo la mayor parte <strong>de</strong> ellos se asocian con un riesgo mo<strong>de</strong>rado. Un<br />

factor <strong>de</strong> riesgo no es equivalente a causal dado que por sí mismo no es suficiente para<br />

que aparezca el cáncer, entre los principales factores <strong>de</strong> riesgo tenemos:<br />

18


Factores <strong>de</strong> alto riesgo.<br />

Los factores <strong>de</strong> riesgo están relacionados con el sexo femenino, edad mayor <strong>de</strong><br />

50 años, antece<strong>de</strong>ntes familiares, alteraciones genéticas, nuliparidad, edad tardía<br />

<strong>de</strong>l primer embarazo, obesidad, escaso ejercicio, edad precoz <strong>de</strong> la menarquia,<br />

menopausia tardía, otras lesiones hiperplásicas, raza blanca, nivel socio-económico<br />

alto, etc.<br />

Otros factores no controlados.<br />

Los factores <strong>de</strong> riesgo son tomados en cuenta para la prevención, pero existen<br />

factores que no pue<strong>de</strong>n ser modificados por el especialista, tales como factores<br />

genéticos, factores personales (paridad, edad <strong>de</strong> menarquia, nivel socio-económico,<br />

raza, etc.), por lo que generalmente se sugiere el mejoramiento <strong>de</strong> los estilos<br />

<strong>de</strong> vida. No existen otros medios para prevenir la enfermedad por lo que su<br />

tratamiento se inicia con el diagnóstico temprano <strong>de</strong> la enfermedad.<br />

2.3.2. Técnicas <strong>de</strong> diagnóstico<br />

Ninguna <strong>de</strong> las técnicas para el diagnóstico <strong>de</strong> cáncer <strong>de</strong> mama tiene certeza<br />

absoluta en sus predicciones, pue<strong>de</strong>n haber falsos positivos (no habiendo realmente<br />

cáncer, se les <strong>de</strong>clara positivos) o falsos negativos (habiendo realmente cáncer, se les<br />

<strong>de</strong>clara negativos), por lo que se sugiere una combinación <strong>de</strong> exámenes y su repetición<br />

periódica. Se dispone <strong>de</strong> las siguientes técnicas para el diagnóstico <strong>de</strong> cáncer <strong>de</strong> mama,<br />

las cuatro primeras son no invasivas:<br />

1. Autoexamen. Es realizado por la paciente. Se trata <strong>de</strong> ubicar cambios en la forma,<br />

tamaño y textura <strong>de</strong> la mama, nódulos, retracción <strong>de</strong>l pezón, presencia <strong>de</strong><br />

secreciones y dolor no habitual.<br />

2. Examen médico. Es realizado por el especialista, consiste en un examen clínico y<br />

en la elaboración y/o seguimiento <strong>de</strong> la historia clínica <strong>de</strong> la paciente.<br />

3. Mamografía. Es el método i<strong>de</strong>al para realizar el diagnóstico precoz <strong>de</strong>l cáncer <strong>de</strong><br />

mama, es indoloro, se realizan un mínimo <strong>de</strong> 2 mamografías <strong>de</strong> cada mama en<br />

diferentes posiciones. El especialista <strong>de</strong>terminará la necesidad <strong>de</strong> realizar otras<br />

mamografías más especificas ya sean focalizadas o ampliadas (ver la subsección<br />

2.4.2). Se recomienda a partir <strong>de</strong> los cuarenta años.<br />

4. Ecografía mamaria. La ecografía mamaria consiste en el uso <strong>de</strong>l sonido como<br />

método <strong>de</strong> diagnóstico. Tiene la ventaja <strong>de</strong> ser inocuo y pue<strong>de</strong> repetirse sin consecuencias<br />

para la paciente. En la mujer adulta, la ecografía se utiliza como elemento<br />

<strong>de</strong> diagnóstico complementario <strong>de</strong> la mamografía. En la mujer adolescente o muy<br />

joven, comúnmente, se utiliza la ecografía como primer elemento <strong>de</strong> diagnóstico.<br />

19


5. Biopsia. Se lleva a cabo mediante una aguja o mediante una escisión, el tejido<br />

extraído es analizado para buscar células malignas. Es una técnica invasiva<br />

recomendada para confirmar el diagnóstico obtenido con la mamografía.<br />

2.4. Mamografía<br />

Una mamografía es un tipo específico <strong>de</strong> imagen que usa bajas dosis <strong>de</strong> rayos X<br />

para examinar las mamas. Es una representación bidimensional <strong>de</strong>l grado <strong>de</strong> atenuación<br />

<strong>de</strong> los rayos X cuando pasan a través <strong>de</strong> un objeto tridimensional, lo cual implica que<br />

toda la información en profundidad se pier<strong>de</strong>. Los resultados quedan registrados en una<br />

placa fotográfica que el radiólogo pue<strong>de</strong> usar para buscar anomalías.<br />

La mamografía muestra los diferentes elementos que conforman la mama, como<br />

son el tejido conjuntivo, glandular y graso así como la piel (ver la figura 2.1). Estos<br />

elementos se muestran <strong>de</strong>bido a la diferencia <strong>de</strong> <strong>de</strong>nsida<strong>de</strong>s que existe entre ellos, las<br />

zonas oscuras correspon<strong>de</strong>n a tejido blando y las zonas blancas a tejido <strong>de</strong>nso.<br />

Figura 2.1: Anatomía <strong>de</strong> las mamas y ejemplo <strong>de</strong> mamografía.<br />

La técnica se prefiere porque permite <strong>de</strong>tectar el cáncer <strong>de</strong> mama en sus estadios<br />

iniciales, lo que ha permitido su amplia difusión, llegando a convertirse en un estándar.<br />

Se recomienda su aplicación anual a partir <strong>de</strong> los cuarenta años. Lamentablemente<br />

la mamografía tiene limitaciones importantes, difíciles <strong>de</strong> eliminar. Primero, no logra<br />

presentar todos los indicadores <strong>de</strong>l cáncer <strong>de</strong> mama y segundo, las características <strong>de</strong> la<br />

imagen no permiten que los radiólogos lleguen a diagnósticos concluyentes. La forma<br />

<strong>de</strong> abordar estos problemas serán <strong>de</strong>tallados en los siguientes capítulos.<br />

20


2.4.1. Tejido predominante<br />

Existe una gran variación en la <strong>de</strong>nsidad <strong>de</strong>l parénquima mamario que se observa<br />

en las mamografías. La <strong>de</strong>nsidad <strong>de</strong> la mamografía varía inversamente con la edad. Por<br />

lo tanto, las mujeres más jóvenes tien<strong>de</strong>n a tener mamas más <strong>de</strong>nsas que las mujeres<br />

<strong>de</strong> más edad, pero muchas mujeres mayores también tienen mamas <strong>de</strong>nsas. El aspecto<br />

general <strong>de</strong> la imagen proporciona información acerca <strong>de</strong>l tejido predominante en la<br />

mamografía, estos pue<strong>de</strong>n ser tejido graso, tejido graso glandular y tejido <strong>de</strong>nso (ver la<br />

figura 2.2). La <strong>de</strong>nsidad <strong>de</strong>l parénquima <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la cantidad <strong>de</strong> tejido conectivo y<br />

<strong>de</strong> tejido glandular en la mama. Aquellas dominadas por el tejido adiposo, que parecen<br />

menos <strong>de</strong>nsas, son fáciles <strong>de</strong> analizar con la mamografía.<br />

Figura 2.2: Tipo <strong>de</strong> tejido predominante. a). Graso, b). Graso glandular, c) Denso.<br />

2.4.2. Proyecciones básicas<br />

Por lo general se pue<strong>de</strong>n tomar dos tipos <strong>de</strong> proyecciones básicas a la mama, la<br />

craneo-caudal (CC) y la oblicua medio lateral (OML), pero se pue<strong>de</strong>n realizar otras<br />

proyecciones cuando se advierta la falta <strong>de</strong> visualización <strong>de</strong> parte <strong>de</strong>l tejido mamario o<br />

cuando se requiera más niti<strong>de</strong>z en la imagen.<br />

1. La proyección cráneo-caudal (ver la figura 2.3.a) se realiza comprimiendo la mama<br />

<strong>de</strong>s<strong>de</strong> su zona mas superior, es una vista <strong>de</strong> arriba hacia abajo, para evitar<br />

imágenes dudosas el pezón se <strong>de</strong>be proyectar <strong>de</strong> forma paralela al <strong>de</strong>tector, con<br />

el fin <strong>de</strong> no confundirlo con un nódulo.<br />

2. La proyección oblicua medio-lateral (ver la figura 2.3.b) es una vista <strong>de</strong> afuera<br />

hacia a<strong>de</strong>ntro formando un ángulo <strong>de</strong> 45 ◦ hacia el lado opuesto <strong>de</strong> la mama,<br />

teniendo la mama completamente comprimida. La mama se eleva proyectándola<br />

hacia <strong>de</strong>lante, colocando a la paciente <strong>de</strong> manera que la axila que<strong>de</strong> por encima<br />

<strong>de</strong>l bor<strong>de</strong> <strong>de</strong>l <strong>de</strong>tector, evitando la formación <strong>de</strong> pliegues.<br />

21


Figura 2.3: Proyecciones básicas. a). Cráneo-caudal, b). Oblicua medio-lateral.<br />

2.4.3. Mamografía digital<br />

Una <strong>de</strong> las limitaciones <strong>de</strong> la mamografía es su naturaleza fotográfica. La película<br />

sirve como medio <strong>de</strong> adquisición, almacenamiento, intercambio y visualización, generando<br />

problemas como <strong>de</strong>terioro <strong>de</strong> la imagen y dificultad para compartir la imagen. La<br />

mamografía digital, permite eliminar estas limitaciones facilitando su rápido intercambio.<br />

Dado que la mamografía digital implica el registro <strong>de</strong> la mamografía directamente<br />

en un medio digital, sin necesidad <strong>de</strong> usar placas fotográficas, su costo <strong>de</strong> adquisición se<br />

incrementa. Es por esto que se prefiere digitalizar la mamografía, mediante sistemas <strong>de</strong><br />

digitalización <strong>de</strong> alta resolución. Si bien la técnica es ampliamente reconocida por los<br />

radiólogos, a la fecha sólo 5 fabricantes (ver el cuadro 2.5) tienen sistemas aprobados<br />

por la FDA (U. S. Food and Drug Administration), para aplicar la mamografía digital.<br />

Cuadro 2.5: Sistemas <strong>de</strong> mamografía digital aprobadas por la FDA<br />

Fabricante Fecha <strong>de</strong><br />

aprobación<br />

GE Senographe 2100DS Full Field Digital Mammography (FFDM) System 19/02/2004<br />

Lorad Digital Breast Imager Full Field Digital Mammography (FFDM) System 15/03/2002<br />

Hologic/Lorad Selenia Full Field Digital Mammography (FFDM) System 10/02/2002<br />

Fischer Imaging SenoScan Full Field Digital Mammography (FFDM) System 25/09/2001<br />

GE Senographe 2000D Full Field Digital Mammography System 28/01/2000<br />

2.5. Proceso <strong>de</strong> diagnóstico <strong>de</strong>l cáncer <strong>de</strong> mama<br />

El proceso <strong>de</strong> diagnóstico <strong>de</strong>l cáncer <strong>de</strong> mama implica aplicar una serie <strong>de</strong> pruebas,<br />

entre las cuales tenemos las mamografías, la cual es usada primariamente. Las<br />

mamografías pue<strong>de</strong>n ser <strong>de</strong> dos tipos, <strong>de</strong> <strong>de</strong>tección y <strong>de</strong> diagnóstico:<br />

22


1. Las mamografías <strong>de</strong> <strong>de</strong>tección implican usar alguna <strong>de</strong> las dos proyecciones básicas.<br />

2. Las mamografías <strong>de</strong> diagnóstico implican imágenes <strong>de</strong> rayos X <strong>de</strong> la mama para<br />

obtener imágenes más claras y más <strong>de</strong>talladas <strong>de</strong> cualquier área que se vea anormal<br />

en una mamografía <strong>de</strong> <strong>de</strong>tección. También se usan para ayudar al médico a<br />

conocer más sobre cambios raros en las mamas, como bultos, dolor, engrosamiento,<br />

secreción <strong>de</strong>l pezón o cambio en el tamaño o forma <strong>de</strong>l seno. Las mamografías<br />

<strong>de</strong> diagnóstico pue<strong>de</strong>n enfocarse en un área específica <strong>de</strong>l seno. Pue<strong>de</strong>n implicar<br />

técnicas especiales y más proyecciones que las mamografías <strong>de</strong> <strong>de</strong>tección.<br />

La capacidad <strong>de</strong>l radiólogo para interpretar una mamografía <strong>de</strong>pen<strong>de</strong> en gran<br />

medida <strong>de</strong> la calidad <strong>de</strong> la imagen. El proceso <strong>de</strong> diagnóstico consiste <strong>de</strong> dos etapas:<br />

1. Buscar regiones en la imagen que tengan apariencia diferente a otras regiones, ya<br />

sea en la misma mama o en la opuesta.<br />

2. Determinar si las características morfológicas <strong>de</strong> cada región tiene el aspecto<br />

<strong>de</strong> una variación normal o <strong>de</strong> un proceso benigno. Si no es posible <strong>de</strong>terminar<br />

el aspecto, entonces se les clasificará como sospechosas y se solicitará análisis<br />

adicionales para confirmar o <strong>de</strong>scartar la sospecha.<br />

2.6. Hallazgos en la mamografía<br />

Un hallazgo correspon<strong>de</strong> a regiones sospechosas que son <strong>de</strong> interés para el especialista.<br />

Es común clasificar los hallazgos en una mamografía como (ver la figura 2.4):<br />

Figura 2.4: Hallazgos en la mamografía.<br />

1. Normal.<br />

Es difícil afirmar qué es una mamografía normal, dado que la mama está conformada<br />

por tejido conjuntivo, glandular y graso (ver la figura 2.1) que con el paso<br />

<strong>de</strong> los años, por la paridad y otros factores pue<strong>de</strong> adquirir apariencia <strong>de</strong>nsa. Es<br />

más práctico <strong>de</strong>finir los casos anormales.<br />

23


2. Masa mamográfica.<br />

Las masas son objetos tridimensionales que pue<strong>de</strong>n ser ubicados en la mamografía.<br />

Pue<strong>de</strong>n ser <strong>de</strong>scritos por su localización, tamaño, forma, características<br />

<strong>de</strong>l margen, <strong>de</strong>nsidad, efecto en el tejido circundante y efectos en la piel.<br />

3. Calcificación.<br />

Son producidos por la secreción <strong>de</strong> las células o por la presencia <strong>de</strong> necrosis<br />

celular. Pue<strong>de</strong>n estar <strong>de</strong>ntro o alre<strong>de</strong>dor <strong>de</strong> los conductos mamarios, <strong>de</strong>ntro <strong>de</strong><br />

las glándulas mamarias, <strong>de</strong>ntro <strong>de</strong> los lóbulos, en las estructuras vasculares, en el<br />

tejido conectivo o en el tejido graso o en la piel. Están asociados con pequeños<br />

puntos brillantes en la mamografía.<br />

4. Distorsión arquitectural.<br />

Correspon<strong>de</strong> a una reacción <strong>de</strong>rmoplásica en la cual existe interrupción focal <strong>de</strong>l<br />

patrón <strong>de</strong>l tejido normal, manifestándose como que el tejido circundante a la lesión<br />

se distorsiona levemente hacia un eje focal. Se trata <strong>de</strong> i<strong>de</strong>ntificar una lesión no<br />

visible directamente por sus efectos en el tejido circundante.<br />

5. Densidad Asimétrica. Correspon<strong>de</strong> a variaciones en la <strong>de</strong>nsidad <strong>de</strong> algunas regiones<br />

comparando ambas mamas. No se pue<strong>de</strong> esperar que una sea el espejo <strong>de</strong><br />

la otra. Este tipo <strong>de</strong> análisis permite analizar estructuras que pue<strong>de</strong>n pasar como<br />

tejido <strong>de</strong>nso si es que se analiza una sola mamografía.<br />

2.6.1. Clasificación BI-RADS<br />

El Colegio Americano <strong>de</strong> Radiología <strong>de</strong>sarrolló el BI-RADS (The Breast Imaging<br />

Reporting and Database System [69]), que es una herramienta para clasificar los<br />

hallazgos en las mamografías. El BI-RADS frecuentemente es utilizado por sistemas automatizados<br />

<strong>de</strong> <strong>de</strong>tección y diagnóstico <strong>de</strong> cáncer <strong>de</strong> mama. Una <strong>de</strong> sus características<br />

es que intenta cumplir el rol <strong>de</strong> ”una herramienta <strong>de</strong> aseguramiento <strong>de</strong> calidad diseñada<br />

para estandarizar el reporte mamográfico, reduciendo la confusión en la interpretación<br />

<strong>de</strong> la imagen <strong>de</strong> la mama y facilitando el control <strong>de</strong> los resultados” (Kopans [19]). El<br />

BI-RADS agrupa las imágenes en seis categorías, <strong>de</strong>l 0 al 5 (ver el cuadro 2.6). En cada<br />

categoría se sugiere la conducta más a<strong>de</strong>cuada a seguir y por otro lado se indica el valor<br />

predictivo positivo para la malignidad (VPP) <strong>de</strong> las mismas en las diferentes categorías<br />

<strong>de</strong> manejo.<br />

24


Cuadro 2.6: Clasificación BI-RADS<br />

Clasificación Comentario Conducta VPP<br />

0 Se necesita más información para entregar un Complementar 13 %<br />

reporte final <strong>de</strong> la mamografía.<br />

con proyecciones<br />

mamográficas<br />

adicionales<br />

1 Negativo Mamografía Normal. No se observan masas, Control periódico<br />

calcificaciones o distorsión <strong>de</strong> la arquitectura habitual<br />

mamaria<br />

2 Benigno Se muestran anormalida<strong>de</strong>s menores que no No es necesario 0 %<br />

son sospechosas <strong>de</strong> ser cáncer.<br />

controles adicionales<br />

3 Probablemente<br />

Se muestran anormalida<strong>de</strong>s menores probable-<br />

Hacer nuevos con-<br />

0.5 %<br />

bemente<br />

benignas. La imagen representativa es troles en 6 meses. al 2 %<br />

nigna una masa con contornos regulares, sólida y no<br />

calcificada.<br />

No es recomendable<br />

la biopsia.<br />

4 Anormalidad<br />

La apariencia <strong>de</strong> la lesión no es característica Se <strong>de</strong>be consi<strong>de</strong>rar 15 %<br />

sospe-<br />

<strong>de</strong> malignidad, pero la probabilidad <strong>de</strong> ma-<br />

la biopsia<br />

al<br />

chosa <strong>de</strong> lignidad es suficientemente alta. Las imágenes<br />

30 %<br />

malignidad representativas son: las masas <strong>de</strong> contornos no<br />

<strong>de</strong>finidos, polilobuladas y a veces mal visualizadas,<br />

<strong>de</strong> estructura heterogénea y con calcificaciones<br />

heterogéneas (amorfas o granulares)<br />

5 Anormalidad<br />

Alta probabilidad <strong>de</strong> malignidad. Las Es imperativa la 97 %<br />

alta-<br />

imágenes representativas son: las masas <strong>de</strong> biopsia.<br />

mente probable<br />

contornos irregulares y espículadas y las<br />

<strong>de</strong> calcificaciones irregulares con disposición<br />

malignidad lineal, ductal o arboriforme.<br />

VPP: Valor predictivo positivo<br />

2.6.2. Calcificaciones<br />

Las calcificaciones son pequeños <strong>de</strong>pósitos <strong>de</strong> mineral <strong>de</strong> calcio que se presentan<br />

como puntos blancos en la mamografía. Muchas mujeres tienen al menos una calcificación<br />

que pue<strong>de</strong> ser observada. Las calcificaciones no se pue<strong>de</strong>n sentir a la palpación y<br />

se encuentran <strong>de</strong> preferencia en una mamografía. Las calcificaciones se analizan según<br />

su tamaño, forma, número, y distribución. Algunas reglas generalmente aceptadas en<br />

relación a las calcificaciones, son las siguientes:<br />

1. Las calcificaciones gran<strong>de</strong>s, redondas u ovales y uniformes en su tamaño, tienen<br />

mayor probabilidad <strong>de</strong> estar asociadas a procesos benignos, pero las calcificaciones<br />

pequeñas, irregulares, polimórficas, con ramificaciones y <strong>de</strong> morfología heterogénea<br />

están asociadas con procesos malignos.<br />

25


2. Las calcificaciones aisladas tienen poca probabilidad <strong>de</strong> ser malignas, pero cuando<br />

se presentan agrupadas tiene alta probabilidad <strong>de</strong> ser malignas.<br />

3. Las calcificaciones <strong>de</strong> menos <strong>de</strong> 0.5 milímetro <strong>de</strong> diámetro tienen alta probabilidad<br />

<strong>de</strong> ser malignas.<br />

4. Las calcificaciones <strong>de</strong> más <strong>de</strong> 1 milímetro <strong>de</strong> diámetro tiene alta probabilidad <strong>de</strong><br />

ser benignas.<br />

Estas reglas no siempre son verda<strong>de</strong>ras, pero se usan como referencia en el proceso<br />

<strong>de</strong> diagnóstico. La clasificación BI-RADS <strong>de</strong> calcificaciones permite i<strong>de</strong>ntificar mayor<br />

cantidad <strong>de</strong> características a tomar en consi<strong>de</strong>ración. Existen dos tipos <strong>de</strong> calcificaciones:<br />

1. Microcalcificaciones.<br />

Aparecen como pequeñas manchas o puntos blancos en la imagen. Se estudia su<br />

forma y tamaño para tomar <strong>de</strong>cisiones sobre su etiología, su diámetro es menor o<br />

igual a 1.0 mm. Tienen cierta probabilidad <strong>de</strong> ser malignas en especial si forman<br />

grupos <strong>de</strong> tres o más en áreas menores a 1.0 cm 2 .<br />

2. Macrocalcificaciones.<br />

Aparecen como puntos blancos gran<strong>de</strong>s en la imagen, son <strong>de</strong>pósitos <strong>de</strong> calcio<br />

voluminosos. Pue<strong>de</strong>n correspon<strong>de</strong>r a cambios <strong>de</strong>generativos en la mama tales<br />

como envejecimiento <strong>de</strong> arterias, lesiones anteriores o inflamaciones. Por lo general<br />

son benignas, cerca <strong>de</strong>l 50 % <strong>de</strong> las mujeres mayores <strong>de</strong> 50 años la tienen, su<br />

tamaño es <strong>de</strong> más <strong>de</strong> 1.0 mm. Los límites mencionados son referenciales.<br />

En esta investigación se trabaja sólo con calcificaciones, las macrocalcificaciones<br />

se <strong>de</strong>scartan <strong>de</strong>l proceso <strong>de</strong> <strong>de</strong>tección. En el transcurso <strong>de</strong>l presente documento se usa<br />

el término calcificación para referirse a los hallazgos que se pue<strong>de</strong>n i<strong>de</strong>ntificar en la<br />

imagen y que no es posible <strong>de</strong>finir su tamaño a priori.<br />

2.6.3. Tipos <strong>de</strong> calcificaciones<br />

El Colegio Americano <strong>de</strong> Radiología [69], clasificó las calcificaciones en 3 categorías:<br />

típicamente benignas (11 tipos), intermedias (1 tipo) y probablemente malignas<br />

(2 tipos). En el cuadro 2.7 se presenta la forma <strong>de</strong> reportar un hallazgo, no basta con<br />

i<strong>de</strong>ntificar el tipo <strong>de</strong> calcificación, es necesario reportar la distribución <strong>de</strong> ellas.<br />

26


Cuadro 2.7: Formato para el reporte <strong>de</strong> calcificaciones, según la clasificación BI-RADS<br />

Calcificaciones<br />

TÍPICAMENTE BENIGNAS<br />

Cutáneas o <strong>de</strong> piel<br />

Vasculares<br />

Grosera<br />

En vara larga<br />

Redon<strong>de</strong>ada (>1mm)<br />

Puntuada (< 0.5 mm)<br />

Esférica o centrolúcida<br />

Aro o en cáscara <strong>de</strong> huevo<br />

Calificación láctea<br />

Sutura<br />

Distrófica<br />

INTERMEDIAS<br />

Amorfas o indistintas<br />

PROBABLEMENTE MALIGNAS<br />

Pleomórficas o Heterogéneas<br />

Finas y/o ramificadas<br />

OTROS<br />

No especificadas<br />

No<br />

especificada<br />

Agrupadas<br />

Distribución<br />

Lineal Segmental<br />

Regional<br />

Dispersa<br />

1. Típicamente benignas<br />

a) Cutáneas (Skin). Típicamente se presentan con un centro radiolúcido y<br />

tienen forma poligonal. Se ubican en la piel, pero en la proyección pue<strong>de</strong>n<br />

aparece como ubicadas en el parénquima. Las formas atípicas pue<strong>de</strong>n ser<br />

confirmadas mediante vistas tangenciales que las muestren a nivel <strong>de</strong> la piel<br />

(ver la figura 2.5).<br />

b) Vascular (Vascular). Forman líneas paralelas o tubulares, están claramente<br />

asociadas con vasos sanguíneos.<br />

c) Grosera (Coarse or Popcorn-like). Se pue<strong>de</strong>n observar en fibroa<strong>de</strong>nomas en<br />

involución.<br />

d) En vara larga (Large Rod-like). De forma tubular, pue<strong>de</strong>n ramificarse ocasionalmente,<br />

usualmente mi<strong>de</strong>n más <strong>de</strong> un milímetro <strong>de</strong> diámetro, pue<strong>de</strong>n<br />

tener un centro radiolúcido si el calcio ro<strong>de</strong>a en lugar <strong>de</strong> rellenar los conductos<br />

ectásicos. Pue<strong>de</strong>n encontrarse en la ectasia ductal.<br />

e) Redon<strong>de</strong>ada (Round). De tamaño variable, mi<strong>de</strong>n más <strong>de</strong> 1 mm, cuando<br />

mi<strong>de</strong>n menos <strong>de</strong> 0.5 mm pue<strong>de</strong> usarse el término puntiforme.<br />

27


Figura 2.5: Tipo <strong>de</strong> calcificaciones, según la clasificación BI-RADS.<br />

28


f ) Puntiforme (Punctate). Mi<strong>de</strong>n menos <strong>de</strong> 0.5 mm, son redondas u ovaladas,<br />

aparecen bien <strong>de</strong>finidas como <strong>de</strong>pósitos puntuados, raramente se asocian<br />

con cáncer, pero si se asocian con otras calcificaciones <strong>de</strong> forma irregular<br />

incrementan la sospecha <strong>de</strong> ser malignas.<br />

g) Esférica o centrolúcida (Spherical). Se pue<strong>de</strong>n exten<strong>de</strong>r <strong>de</strong>s<strong>de</strong> 1 mm hasta 1<br />

cm. Pue<strong>de</strong>n encontrarse como restos en un conducto mamario, en áreas <strong>de</strong><br />

necrosis <strong>de</strong> tejido graso y a veces en fibroa<strong>de</strong>nomas.<br />

h) Aro o en cáscara <strong>de</strong> huevo (Eggshell or Rim). Son muy <strong>de</strong>lgadas (menos <strong>de</strong><br />

1 mm. <strong>de</strong> espesor) y semejan a <strong>de</strong>pósitos cálcicos sobre la superficie <strong>de</strong> una<br />

esfera. Aunque la necrosis grasa pue<strong>de</strong> producir este tipo <strong>de</strong> <strong>de</strong>pósitos, la<br />

calcificación <strong>de</strong> la pared <strong>de</strong> un quiste es la causa más común. El cáncer <strong>de</strong><br />

mama raramente produce este tipo <strong>de</strong> calcificaciones.<br />

i) Calificación láctea (Milk of Calcium). Sedimento cálcico intraquístico. En la<br />

proyección craneo-caudal es menos evi<strong>de</strong>nte y tiene apariencia poco <strong>de</strong>finida<br />

como un <strong>de</strong>pósito amorfo, mientras que en la proyección lateral es <strong>de</strong> bor<strong>de</strong>s<br />

<strong>de</strong>finidos, semilunares, <strong>de</strong> forma creciente, cóncavas hacia arriba o lineales<br />

<strong>de</strong>pendiendo la porción <strong>de</strong>l quiste.<br />

j ) Sutura (Suture). Se forman alre<strong>de</strong>dor <strong>de</strong>l material <strong>de</strong> sutura. Son relativamente<br />

comunes en las mamas irradiadas, típicamente son lineales o tubulares<br />

y en ocasiones pue<strong>de</strong>n i<strong>de</strong>ntificarse los nudos.<br />

k) Distrófica (Dystrophic).<br />

2. Intermedias<br />

Usualmente aparecen en mamas irradiadas o traumatizadas. Aunque <strong>de</strong> contornos<br />

irregulares usualmente mi<strong>de</strong>n más <strong>de</strong> 0.5 mm. <strong>de</strong> diámetro y a menudo<br />

tienen centro radiolúcido.<br />

a) Amorfas o indistintas (Amorphous or Indistinct).<br />

Pue<strong>de</strong>n aparecer como calcificaciones redon<strong>de</strong>adas o formando escamas y<br />

son suficientemente pequeñas o nebulosas tal que su morfología no pue<strong>de</strong> ser<br />

comprobada con certeza.<br />

3. Altamente probables <strong>de</strong> ser malignas.<br />

a) Pleomórficas o Heterogéneas (Heterogeneous or Pleomorphic).<br />

Son granulares, no se asocian a procesos benignos o malignos a priori, pero<br />

agrupamientos <strong>de</strong> calcificaciones irregulares en tamaño y forma y a<strong>de</strong>más <strong>de</strong><br />

tamaños menores a 0.5 mm incrementan la sospecha <strong>de</strong> ser malignos.<br />

29


) Finas y/o ramificadas (Fine or Branching).<br />

Son <strong>de</strong>lgadas, irregulares, diseminadas y aparecen formando líneas discontinuas,<br />

tienen menos <strong>de</strong> 0.5 mm <strong>de</strong> ancho. Su apariencia sugiere el llenado<br />

<strong>de</strong> la luz <strong>de</strong> los conductos afectados irregularmente por cáncer <strong>de</strong> mama.<br />

2.6.4. Tipos <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones<br />

No basta con <strong>de</strong>scribir el tipo <strong>de</strong> calcificación i<strong>de</strong>ntificada, también es necesario<br />

<strong>de</strong>scribir el tipo <strong>de</strong> distribución que presentan cuando se encuentran en grupos. La BI-<br />

RADS <strong>de</strong>l Colegio Americano <strong>de</strong> Radiología proporciona la siguiente categorización:<br />

1. Agrupados o arracimados (grouped or clustered). Los términos agrupados o arracimados<br />

se utilizaban para <strong>de</strong>scribir grupos <strong>de</strong> calcificaciones sospechosas. Estos<br />

términos son neutrales y se pue<strong>de</strong>n utilizar para <strong>de</strong>scribir procesos benignos o malignos.<br />

Agrupado o arracimado se pue<strong>de</strong> utilizar para <strong>de</strong>scribir las calcificaciones<br />

que ocupan volúmenes pequeños <strong>de</strong>l tejido fino.<br />

2. Lineales (linear). Las calcificaciones distribuidas linealmente, están or<strong>de</strong>nadas formando<br />

una línea y pue<strong>de</strong>n tener puntos <strong>de</strong> ramificación.<br />

3. Segmentados (segmental). Las calcificaciones distribuidas segmentadamente sugieren<br />

<strong>de</strong>pósitos <strong>de</strong> calcio en los ductos mamarios. Este tipo <strong>de</strong> calcificaciones<br />

pue<strong>de</strong>n ser secundarias a procesos benignos o malignos.<br />

4. Regionales (regional). Las calcificaciones distribuidas regionalmente probablemente<br />

correspondan a procesos benignos. Estas calcificaciones se dispersan en<br />

un volumen gran<strong>de</strong> <strong>de</strong> la mama y no necesariamente conforman una distribución<br />

según los ductos mamarios.<br />

5. Dispersos (diffuse). Las calcificaciones distribuidas en forma dispersa, se ubican<br />

aleatoriamente a través <strong>de</strong> la mama sin seguir algún patrón <strong>de</strong>terminado.<br />

Un aspecto interesante <strong>de</strong> esta categorización es que no se <strong>de</strong>fine la cantidad<br />

mínima <strong>de</strong> calcificaciones a partir <strong>de</strong>l cual un conjunto <strong>de</strong> ellas pue<strong>de</strong> ser consi<strong>de</strong>rada<br />

como un agrupamiento.<br />

2.7. Procesamiento <strong>de</strong> imágenes<br />

Las técnicas <strong>de</strong> procesamiento <strong>de</strong> imágenes (González [35], Schalkoff [77]) están<br />

apoyadas en el uso <strong>de</strong> la computadora, se trata <strong>de</strong> aplicar una serie <strong>de</strong> métodos para<br />

preprocesar, i<strong>de</strong>ntificar contrastes, buscar contornos y segmentar las imágenes en regiones.<br />

El tratamiento digital <strong>de</strong> mamografías involucra tres dificulta<strong>de</strong>s (O’Doherty<br />

[68]):<br />

30


1. Análisis <strong>de</strong> pequeñas estructuras <strong>de</strong> bajo contraste contenido en un entorno no<br />

uniforme, existe a veces muy poco contraste entre el área sospechosa y el entorno.<br />

El problema se agrava si es que la resolución <strong>de</strong> la imagen digitalizada es baja,<br />

por otro lado la presencia <strong>de</strong> estructuras mamarias <strong>de</strong>nsas reduce aún más el<br />

contraste.<br />

2. El diagnóstico <strong>de</strong> la información contenida en la mamografía es más interpretativa<br />

que estadística, esto es que las características esenciales para diagnosticar una<br />

enfermedad en particular son <strong>de</strong>terminadas por la misma enfermedad y por las<br />

propieda<strong>de</strong>s <strong>de</strong> la imagen, es el especialista el que finalmente <strong>de</strong>be <strong>de</strong> tomar una<br />

<strong>de</strong>cisión.<br />

3. La resolución requerida para diagnosticar una enfermedad en particular pue<strong>de</strong> ser<br />

<strong>de</strong> magnitud mayor que el usado para el diagnóstico <strong>de</strong> otras enfermeda<strong>de</strong>s.<br />

En general las técnicas <strong>de</strong> análisis <strong>de</strong> mamografías se pue<strong>de</strong>n dividir en cuatro<br />

etapas (Dhawan [21], O’Doherty [68]):<br />

1. Preprocesamiento.<br />

Se emplean con la finalidad <strong>de</strong> eliminar el ruido <strong>de</strong> la imagen, la cual es mejorada<br />

en sus propieda<strong>de</strong>s para posteriores tratamientos. Las técnicas usadas en esta<br />

etapa <strong>de</strong>pen<strong>de</strong>n <strong>de</strong>l tipo <strong>de</strong> objeto en particular que se <strong>de</strong>sea <strong>de</strong>tectar, entre éstas<br />

tenemos el mejoramiento <strong>de</strong> contraste <strong>de</strong> las regiones sospechosas, la remoción<br />

<strong>de</strong>l ruido <strong>de</strong>l fondo y la reducción <strong>de</strong>l espacio <strong>de</strong> trabajo.<br />

2. Detección y localización <strong>de</strong> áreas sospechosas.<br />

Se emplean con la finalidad <strong>de</strong> trabajar sobre la regiones <strong>de</strong> interés. En esta etapa<br />

es don<strong>de</strong> se concentran gran cantidad <strong>de</strong> técnicas tales como: mo<strong>de</strong>los <strong>de</strong> textura,<br />

fractales, escala <strong>de</strong> espacio, wavelets, matemáticas morfológicas, re<strong>de</strong>s neuronales,<br />

lógica difusa, máquinas <strong>de</strong> vector soporte, etc. (ver la sección 2.8).<br />

3. Segmentación.<br />

Se emplean con la finalidad <strong>de</strong> segmentar la imagen en las región <strong>de</strong> interés<br />

i<strong>de</strong>ntificadas para su tratamiento en particular. El problema a resolver implica la<br />

<strong>de</strong>tección <strong>de</strong> los bor<strong>de</strong>s <strong>de</strong>l objeto a segmentar y su extracción <strong>de</strong> la imagen.<br />

4. Clasificación.<br />

Se emplean con la finalidad <strong>de</strong> buscar métodos <strong>de</strong> predicción. Implica la extracción<br />

<strong>de</strong> características <strong>de</strong>s<strong>de</strong> los segmentos extraídos <strong>de</strong> la imagen y el uso <strong>de</strong> alguna<br />

técnica <strong>de</strong> clasificación supervisada o no supervisada.<br />

31


2.8. Técnicas para la <strong>de</strong>tección <strong>de</strong> calcificaciones<br />

Diferentes técnicas se han concentrado en la i<strong>de</strong>ntificación <strong>de</strong> calcificaciones en<br />

mamografías, dado que éstas son indicadores primarios <strong>de</strong> la presencia <strong>de</strong> cáncer <strong>de</strong><br />

mama, entre ellas tenemos:<br />

1. Máquinas <strong>de</strong> vector <strong>de</strong> soporte (SVM).<br />

Fue usada en los trabajos <strong>de</strong> Campanini [10], Bazzani [1] y El-Naqa [27]. La<br />

SVM es un método <strong>de</strong> aprendizaje supervisado. El algoritmo apren<strong>de</strong> a reconocer<br />

regiones en la imagen que correspon<strong>de</strong> a calcificaciones. La regiones son entregadas<br />

al algoritmo como pequeñas ventanas.<br />

2. Técnica <strong>de</strong> diferencia <strong>de</strong> imágenes.<br />

Fue usada en los trabajos <strong>de</strong> Nishikawa [66] y Bazzani [5]. La técnica es usada para<br />

mejorar el contraste entre las potenciales calcificaciones y el tejido circundante.<br />

Se aplican dos filtros, el primero mejora la apariencia <strong>de</strong> las estructuras pequeñas,<br />

el segundo lo suprime. Luego se resta la imagen suprimida <strong>de</strong> la imagen mejorada.<br />

3. Diferencia <strong>de</strong> filtros Gaussianos (DoG).<br />

Fue usada en el trabajo <strong>de</strong> Dengler et al. [20], Polakowski et al. [71] y MeGarry<br />

[62]. El filtro DoG es un filtro pasa bandas, <strong>de</strong>be <strong>de</strong> ser adaptado en sus parámetros<br />

para mejorar el proceso <strong>de</strong> <strong>de</strong>tección. Su capacidad <strong>de</strong> <strong>de</strong>tección <strong>de</strong>pen<strong>de</strong> <strong>de</strong><br />

la <strong>de</strong>sviación estándar <strong>de</strong> cada uno <strong>de</strong> los filtros que lo conforman. Es aplicado a<br />

la imagen obteniendo una serie <strong>de</strong> regiones que representan máximos y mínimos<br />

locales. Un proceso <strong>de</strong> binarización permite recuperar sólo los máximos locales,<br />

y un proceso <strong>de</strong> segmentación extrae las regiones <strong>de</strong> interés.<br />

4. Laplaciano <strong>de</strong>l Gaussiano (LoG).<br />

Esta técnica fue utilizada en los trabajos <strong>de</strong> Netsch [65] y Führ [31]. El filtro<br />

actúa como un <strong>de</strong>tector <strong>de</strong> puntos multiescala. El filtro LoG pue<strong>de</strong> ser visto como<br />

filtro pasa bandas y es usado frecuentemente para i<strong>de</strong>ntificar cruces en cero. El<br />

mo<strong>de</strong>lo <strong>de</strong> calcificación es visto como un punto brillante <strong>de</strong> cierto diámetro que<br />

se diferencia con cierto contraste <strong>de</strong> su entorno.<br />

5. Wavelets.<br />

Esta técnica fue utilizada en los trabajos <strong>de</strong> Ferrari [30], Dhawan [21] y Strickland<br />

[83]. La transformada <strong>de</strong> wavelet permite la representación <strong>de</strong> señales locales y<br />

globales y la representación <strong>de</strong> la imagen en el dominio <strong>de</strong>l espacio y <strong>de</strong> la frecuencia.<br />

La transformada divi<strong>de</strong> la imagen en un conjunto <strong>de</strong> canales <strong>de</strong> frecuencia<br />

teniendo un ancho <strong>de</strong> banda constante en una escala logarítmica, se preten<strong>de</strong><br />

i<strong>de</strong>ntificar estos canales <strong>de</strong> frecuencia.<br />

32


6. Mo<strong>de</strong>los fractales.<br />

Esta técnica fue utilizada en los trabajos <strong>de</strong> Lefebvre [57], Bocchi [7], Li [59] y Liu<br />

[61]. La técnica divi<strong>de</strong> la imagen en ventanas cuadradas <strong>de</strong> tamaño fijo y diseña un<br />

mo<strong>de</strong>lo para las estructuras normales (fondo <strong>de</strong> la imagen). El tejido parenquimal<br />

y ductal es mo<strong>de</strong>lado bajo un conjunto <strong>de</strong> parámetros. Así las calcificaciones<br />

pue<strong>de</strong>n ser <strong>de</strong>tectadas restando la imagen mo<strong>de</strong>lada <strong>de</strong> la imagen original. El<br />

mo<strong>de</strong>lo es <strong>de</strong>nominado ”Movimiento Browniano Fraccionario Ruidoso” y es usado<br />

frecuentemente para mo<strong>de</strong>lar escenas naturales y textura (Liu [61])<br />

7. Lógica difusa.<br />

Esta técnica fue utilizada en el trabajo <strong>de</strong> Cheng [14]. El algoritmo divi<strong>de</strong> la imagen<br />

en diferentes regiones <strong>de</strong> acuerdo a su nivel <strong>de</strong> intensidad. Tiene un esquema<br />

para <strong>de</strong>tectar variaciones en el tejido blando. Su esquema <strong>de</strong> <strong>de</strong>tección <strong>de</strong>pen<strong>de</strong><br />

<strong>de</strong> la <strong>de</strong>tección <strong>de</strong> bor<strong>de</strong>s en el tejido <strong>de</strong>nso, que correspon<strong>de</strong>n a potenciales calcificaciones.<br />

8. Estadística textural.<br />

Esta técnica fue utilizada en los trabajos <strong>de</strong> Kook [51] y Comer [16]. La técnica<br />

divi<strong>de</strong> la imagen en regiones <strong>de</strong> interés y busca aquellas don<strong>de</strong> existe gradiente<br />

en los niveles <strong>de</strong> gris, confía más en las propieda<strong>de</strong>s <strong>de</strong> contraste que en las<br />

propieda<strong>de</strong>s <strong>de</strong> forma <strong>de</strong> la calcificación.<br />

9. Matemáticas morfológicas.<br />

Está técnica fue utilizada en los trabajos <strong>de</strong> Wróblewska et al. [89], Betal et al. [6],<br />

Ustymowicz et al. [87], Zhao et al. [93], Melloul et al. [63] y Sklansky et al. [80]. La<br />

técnica es usada en combinación con técnicas <strong>de</strong> binarización (local o global), se<br />

usa para <strong>de</strong>terminar la forma y el tamaño <strong>de</strong> la microcalcificación. Varios trabajos<br />

<strong>de</strong>terminaron adaptativamente el umbral <strong>de</strong> binarización en función <strong>de</strong>l nivel <strong>de</strong><br />

gris <strong>de</strong> la calcificación y <strong>de</strong> su entorno.<br />

10. Re<strong>de</strong>s neuronales.<br />

Está técnica fue utilizada en los trabajos <strong>de</strong> Yu et al. [91], Sajda et al. [75],<br />

Lasztovicza et al. [56]. La técnica preten<strong>de</strong> usar una red neuronal para seleccionar<br />

patrones <strong>de</strong> comportamiento <strong>de</strong> regiones en la imagen que contiene calcificaciones,<br />

la imagen es preprocesada para mejorar la efectividad <strong>de</strong> la red. El problema que<br />

preten<strong>de</strong> resolver la técnica es cómo buscar los verda<strong>de</strong>ros positivos, dado que la<br />

proporción <strong>de</strong> falsos positivos es bastante alto.<br />

33


2.9. Resumen<br />

La mamografía es una técnica para el diagnóstico <strong>de</strong>l cáncer <strong>de</strong> mama, en ella se<br />

pue<strong>de</strong> i<strong>de</strong>ntificar los siguientes hallazgos: masas, calcificaciones, distorsiones arquitecturales<br />

y <strong>de</strong>nsida<strong>de</strong>s asimétricas. La clasificación BI-RADS es una herramienta para<br />

clasificar los hallazgos en las mamografías en cinco categorías: negativo, benigno, probablemente<br />

benigna, anormalidad sospechosa <strong>de</strong> malignidad y anormalidad altamente<br />

probable <strong>de</strong> malignidad. Las calcificaciones son pequeños <strong>de</strong>pósitos <strong>de</strong> calcio que aparecen<br />

como puntos brillantes en la imagen, son <strong>de</strong> interés aquellos <strong>de</strong> menos <strong>de</strong> 1 mm <strong>de</strong><br />

diámetro (calcificaciones). Las calcificaciones pue<strong>de</strong>n ser clasificadas como típicamente<br />

benignas, intermedias y probablemente malignas. Los agrupamientos <strong>de</strong> calcificaciones<br />

son grupos <strong>de</strong> 3 o más calcificaciones en un área <strong>de</strong> 1 cm 2 . Estos pue<strong>de</strong>n ser clasificados<br />

como agrupados, lineales, segmentados, regionales y dispersos. Las siguientes<br />

técnicas frecuentemente son usadas para la <strong>de</strong>tección <strong>de</strong> calcificaciones: máquinas <strong>de</strong><br />

vector <strong>de</strong> soporte, técnicas <strong>de</strong> diferencia <strong>de</strong> imágenes, diferencia <strong>de</strong> filtros gaussianos,<br />

laplaciano <strong>de</strong>l gaussiano, wavelets, mo<strong>de</strong>los fractales, lógica difusa, estadística textural,<br />

matemáticas morfológicas y re<strong>de</strong>s neuronales.<br />

34


Capítulo 3<br />

Mo<strong>de</strong>lo <strong>de</strong> Solución<br />

3.1. Mo<strong>de</strong>lo <strong>de</strong> solución<br />

El mo<strong>de</strong>lo <strong>de</strong> solución es el procedimiento que se siguió para lograr resolver el<br />

problema planteado en esta investigación (ver la sección 1.2). El procedimiento <strong>de</strong><br />

solución correspon<strong>de</strong> a una serie <strong>de</strong> pasos sistemáticamente or<strong>de</strong>nados en un flujograma<br />

como se presenta en la figura 3.1<br />

Figura 3.1: Mo<strong>de</strong>lo <strong>de</strong> solución <strong>de</strong> la investigación.<br />

El procedimiento general recibe como entrada una mamografía digitalizada (I),<br />

35


posteriormente la imagen es procesada en 5 etapas para obtener como resultado una<br />

lista <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones (C), indicando si es benigno o maligno, por<br />

cada agrupamiento a su vez se entrega una lista <strong>de</strong> calcificaciones. El procedimiento<br />

tiene una lista <strong>de</strong> parámetros que serán analizados a más <strong>de</strong>talle en cada etapa <strong>de</strong>l<br />

procedimiento.<br />

El procedimiento general está conformado por cinco etapas: preprocesamiento <strong>de</strong><br />

la mamografía, <strong>de</strong>tección <strong>de</strong> potenciales calcificaciones (señales), clasificación <strong>de</strong> señales<br />

en calcificaciones, <strong>de</strong>tección <strong>de</strong> agrupamiento <strong>de</strong> calcificaciones y clasificación <strong>de</strong> agrupamientos<br />

en benignos o malignos. Con el propósito exclusivo <strong>de</strong> validar la hipótesis <strong>de</strong><br />

la investigación se incluye una etapa adicional, agrupamiento unitario.<br />

1. Preprocesamiento.<br />

Esta etapa tiene por finalidad eliminar aquellos elementos en la imagen que<br />

pue<strong>de</strong>n distorsionar el proceso <strong>de</strong> i<strong>de</strong>ntificación <strong>de</strong> las calcificaciones. El procedimiento<br />

tiene como entrada la imagen original. Primero se aplica un filtro<br />

mediana para eliminar el ruido <strong>de</strong> fondo; segundo se crea una imagen binaria <strong>de</strong>s<strong>de</strong><br />

la imagen filtrada, don<strong>de</strong> cada pixel representa una ventana <strong>de</strong> 16x16 pixeles,<br />

si el promedio <strong>de</strong> gris <strong>de</strong> la ventana es menor que cierto umbral se coloca un cero<br />

(0) en la imagen binaria, si el promedio es mayor o igual que el umbral se coloca<br />

un uno (1) y tercero se aplica un corte automático para eliminar las marcas <strong>de</strong>l<br />

fondo y las regiones aisladas, tal que se ajuste la imagen para que contenga sólo<br />

la región <strong>de</strong> interés. El resultado es una imagen <strong>de</strong> menor tamaño y con menor<br />

cantidad <strong>de</strong> ruido.<br />

2. Detección <strong>de</strong> potenciales calcificaciones (señales).<br />

Esta etapa tiene por finalidad <strong>de</strong>tectar el centro <strong>de</strong> masa <strong>de</strong> las potenciales calcificaciones<br />

en la imagen (señales). Al procedimiento ingresa la imagen preprocesada<br />

en la etapa anterior. Se utiliza la diferencia optimizada <strong>de</strong> dos filtros gaussianos<br />

(DoG), que permiten resaltar aquellas regiones que contienen puntos brillantes;<br />

luego la imagen resultante es binarizada globalmente.<br />

En esta nueva imagen, las regiones <strong>de</strong> interés aparecen como pixeles aislados<br />

ro<strong>de</strong>ados <strong>de</strong> regiones oscuras. Un algoritmo <strong>de</strong> etiquetado <strong>de</strong> regiones permite<br />

i<strong>de</strong>ntificar cada uno <strong>de</strong> los puntos, luego un algoritmo <strong>de</strong> segmentación extrae<br />

pequeñas ventanas <strong>de</strong> 9x9 conteniendo la región <strong>de</strong> la imagen cuyo centroi<strong>de</strong><br />

correspon<strong>de</strong> al centroi<strong>de</strong> <strong>de</strong>l punto.<br />

Tres métodos <strong>de</strong> selección son aplicados para convertir un punto en una señal,<br />

el primero selecciona <strong>de</strong> acuerdo al área <strong>de</strong> la región, el segundo <strong>de</strong> acuerdo al<br />

promedio <strong>de</strong> gris y el tercero <strong>de</strong> acuerdo al gradiente <strong>de</strong> gris. El resultado es una<br />

lista <strong>de</strong> señales representadas por sus centroi<strong>de</strong>s.<br />

36


Para facilitar la <strong>de</strong>tección <strong>de</strong> señales, se aplican 15 filtros DoG en cascada, <strong>de</strong> tal<br />

forma que los puntos obtenidos por el segundo filtro son adicionados a los puntos<br />

obtenidos por el primer filtro, eliminándose los puntos repetidos; lo mismo suce<strong>de</strong><br />

con los puntos obtenidos por los subsiguientes filtros. Todos estos puntos son<br />

pasados luego por los tres procedimientos <strong>de</strong> selección.<br />

3. Clasificación <strong>de</strong> señales en calcificaciones.<br />

Esta etapa tiene por finalidad i<strong>de</strong>ntificar si una señal obtenida en la etapa anterior<br />

correspon<strong>de</strong> o no a una calcificación individual. Con este propósito se extrae un<br />

conjunto <strong>de</strong> características, relacionadas con el contraste y la forma <strong>de</strong> la señal.<br />

Dado que no se tiene un criterio a priori para <strong>de</strong>terminar qué características usar<br />

en el clasificador, éstas son pasadas por dos procesos <strong>de</strong> selección: el primero intenta<br />

eliminar las características que tienen alta correlación con otras y el segundo<br />

usa una <strong>de</strong>rivación <strong>de</strong>l algoritmo <strong>de</strong> búsqueda secuencial hacia a<strong>de</strong>lante, que es un<br />

algoritmos <strong>de</strong> búsqueda subóptima. El algoritmo <strong>de</strong>ci<strong>de</strong> qué característica añadir<br />

<strong>de</strong>pendiendo <strong>de</strong> la ganancia <strong>de</strong> información que proporciona, quedando finalmente<br />

un subconjunto <strong>de</strong> ellas que minimizan el error <strong>de</strong> un clasificador.<br />

Una red neuronal <strong>de</strong> retropropagación <strong>de</strong> tres capas es usada para clasificar cada<br />

señal y obtener aquellas que correspon<strong>de</strong>n a calcificaciones.<br />

Hasta el momento sólo se han logrado i<strong>de</strong>ntificar las calcificaciones individuales,<br />

pero no es posible afirmar si éstas son benignas o malignas, dado que esta propiedad<br />

tiene más relación con los grupos <strong>de</strong> calcificaciones que con calcificaciones individuales.<br />

Con este propósito se proce<strong>de</strong> a comparar dos procedimientos:<br />

a) Buscar grupos <strong>de</strong> calcificaciones que puedan conformar agrupamientos, tal<br />

que <strong>de</strong>s<strong>de</strong> una mamografía se pueda i<strong>de</strong>ntificar uno o más agrupamientos.<br />

b) Consi<strong>de</strong>rar que todas la calcificaciones <strong>de</strong> una mamografía siempre forman<br />

parte <strong>de</strong> un sólo agrupamiento.<br />

4. Detección <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones.<br />

En esta etapa se i<strong>de</strong>ntifican los agrupamientos <strong>de</strong> calcificaciones, para esto se<br />

utilizan las calcificaciones i<strong>de</strong>ntificadas en la etapa anterior. El algoritmo intenta<br />

ubicar aquellos grupos <strong>de</strong> calcificaciones que ocupen regiones don<strong>de</strong> es mayor el<br />

número <strong>de</strong> calcificaciones por cm 2 . Las calcificaciones que conforman un agrupamiento<br />

luego son etiquetadas. Des<strong>de</strong> cada agrupamiento se extrae un conjunto<br />

<strong>de</strong> características que servirán para clasificarlos en benignos o malignos.<br />

Agrupamiento unitario.<br />

Esta etapa se adiciona al proceso general con la finalidad <strong>de</strong> confirmar que el<br />

proceso <strong>de</strong> i<strong>de</strong>ntificación <strong>de</strong> agrupamientos efectivamente mejora el <strong>de</strong>sempeño<br />

37


<strong>de</strong>l sistema. En este caso se consi<strong>de</strong>ra que todas las calcificaciones i<strong>de</strong>ntificadas<br />

en la imagen correspon<strong>de</strong>n a un sólo agrupamiento, por lo que las características<br />

a extraer son las mismas que en el caso anterior.<br />

Por otro lado, en esta etapa se incluyen dos procedimiento <strong>de</strong> selección <strong>de</strong> características,<br />

con la finalidad <strong>de</strong> reducir el número <strong>de</strong> ellas y usar sólo las que son<br />

significativas.<br />

5. Clasificación <strong>de</strong> agrupamientos en benignos y malignos.<br />

Esta etapa tiene por finalidad clasificar cada agrupamiento en dos clases (benignas<br />

o malignas). Este dato es proporcionado por la base <strong>de</strong> datos <strong>de</strong> la MIAS. El<br />

clasificador usado para este propósito es una red neuronal <strong>de</strong> tres capas.<br />

Los <strong>de</strong>sempeños alcanzados por los procesos <strong>de</strong> clasificación (<strong>de</strong>tección <strong>de</strong> agrupamientos<br />

y agrupamiento unitario) son comparados para <strong>de</strong>terminar si estos son semejantes<br />

y tratar <strong>de</strong> llegar a conclusiones significativas acerca <strong>de</strong> los procesos. El <strong>de</strong>talle<br />

<strong>de</strong> los algoritmos y procedimientos usados en cada etapa serán <strong>de</strong>sarrollados en los<br />

siguientes capítulos.<br />

3.2. Resumen<br />

El mo<strong>de</strong>lo <strong>de</strong> solución se elabora con el propósito <strong>de</strong> sistematizar el procedimiento<br />

<strong>de</strong> solución <strong>de</strong>l problema planteado. El procedimiento consiste <strong>de</strong> cinco etapas: preprocesamiento,<br />

<strong>de</strong>tección <strong>de</strong> señales, clasificación <strong>de</strong> calcificaciones, <strong>de</strong>tección <strong>de</strong> agrupamientos<br />

y clasificación <strong>de</strong> agrupamientos. Se incluye una etapa adicional agrupamiento<br />

unitario que servirá para validar la hipótesis planteada. Los <strong>de</strong>talles <strong>de</strong> cada etapa<br />

son <strong>de</strong>tallados posteriormente en cada capítulo <strong>de</strong>l presente documento.<br />

38


Capítulo 4<br />

Preprocesamiento<br />

La finalidad <strong>de</strong> esta etapa es eliminar aquellos elementos en la imagen que pue<strong>de</strong>n<br />

distorsionar el proceso <strong>de</strong> i<strong>de</strong>ntificación <strong>de</strong> las potenciales calcificaciones (ver el capítulo<br />

5) así como reducir el área <strong>de</strong> trabajo sólo a la región <strong>de</strong> la mama. Se pue<strong>de</strong> adquirir<br />

ruido durante el procedimiento <strong>de</strong> toma <strong>de</strong> la mamografía y durante el proceso <strong>de</strong> digitalización<br />

<strong>de</strong> la placa <strong>de</strong> Rx, dado que se pue<strong>de</strong>n presentar variaciones en la iluminación<br />

y distorsiones en las propieda<strong>de</strong>s <strong>de</strong> la imagen digitalizada. En promedio sólo el 40 % <strong>de</strong><br />

cada mamografía usada en esta investigación correspon<strong>de</strong> a la mama (ver la figura 4.4).<br />

El fondo pue<strong>de</strong> contener marcas que i<strong>de</strong>ntifican la mamografía pero que no aportan en<br />

el proceso.<br />

El flujograma <strong>de</strong>l procedimiento se presenta en la figura 4.1, don<strong>de</strong> se aplican tres<br />

procedimientos, filtro mediana, imagen binaria y corte automático. A esta etapa ingresa<br />

la imagen original (I). Se obtienen como resultados, la imagen preprocesada (I’) y la<br />

imagen binaria asociada (B’). El procedimiento tiene tres parámetros, el tamaño <strong>de</strong>l<br />

filtro, el tamaño <strong>de</strong> la ventana y el umbral mínimo (gris). Todos los parámetros son<br />

calculados en la etapa <strong>de</strong> experimentación (ver la subsección 8.4.2).<br />

Figura 4.1: Diagrama <strong>de</strong> flujo. Etapa <strong>de</strong> preprocesamiento.<br />

39


4.1. Filtro mediana<br />

El filtro mediana es un filtro no lineal, usado frecuentemente para eliminar el ruido<br />

<strong>de</strong> alta frecuencia sin eliminar las características significativas <strong>de</strong> la imagen. En esta<br />

investigación se requiere aplicar un filtro que no reduzca el <strong>de</strong>sempeño <strong>de</strong>l filtro DoG<br />

(ver la sección 5.1), pero que tampoco lo haga sensible a las altas frecuencias. Se usa<br />

una máscara <strong>de</strong> 3x3, la cual es centrada en cada pixel <strong>de</strong> la imagen, reemplazando el<br />

pixel central por la mediana <strong>de</strong> los nueve pixeles que cubre la máscara. El tamaño <strong>de</strong><br />

la máscara permite que se mantengan las características propias <strong>de</strong> la imagen y a la<br />

vez se eliminen las altas frecuencias.<br />

El filtro mediana es mejor que el filtro promediador, también usado para eliminar<br />

las altas frecuencias. En la figura 4.2 se presentan los resultados <strong>de</strong> aplicar el filtro<br />

mediana y el filtro promediador a un imagen con ruido gaussiano. Primero se presenta<br />

la imagen original (a), luego se presenta la imagen con ruido (b), en (c) se presenta la<br />

imagen con ruido luego <strong>de</strong> aplicarse el filtro mediana y en (d) se presenta la imagen<br />

con ruido luego <strong>de</strong> aplicarse el filtro promediador. Se pue<strong>de</strong> observar que los <strong>de</strong>talles<br />

<strong>de</strong> la imagen se recuperan en buena medida con la aplicación <strong>de</strong>l filtro mediana, esto<br />

no suce<strong>de</strong> cuando se aplica el filtro promediador.<br />

El tamaño <strong>de</strong> la máscara 3x3 se ha elegido para evitar la pérdida <strong>de</strong> <strong>de</strong>talles<br />

locales; máscaras más gran<strong>de</strong>s pue<strong>de</strong>n eliminar las altas frecuencias.<br />

Figura 4.2: Aplicación <strong>de</strong>l filtro mediana. a) imagen original, b) imagen con ruido, c)<br />

filtro mediana <strong>de</strong> 3x3 y d) filtro promediador <strong>de</strong> 3x3.<br />

40


4.2. Imagen binaria<br />

Con la finalidad <strong>de</strong> procesar solo la región que correspon<strong>de</strong> a la mama y eliminar el<br />

ruido circundante se crear una imagen binaria <strong>de</strong> I’ como si fuese un espejo. Cada pixel<br />

<strong>de</strong> la imagen espejo representa grupos <strong>de</strong> 16x16 pixeles en la imagen I’. Si el promedio<br />

<strong>de</strong> gris <strong>de</strong> la ventana es mayor o igual que promedio mínimo su valor es uno (1), en<br />

caso contrario es cero (0). El procedimiento se ejecuta realizando los siguientes pasos<br />

(ver Pseudocódigo 3.1):<br />

Pseudocódigo 3.1:<br />

Procedure: [B ] = imagen binaria(I, lado ventana, promedio mínimo)<br />

1. B = crear imagen binaria(filas I / lado ventana, columnas I / lado ventana)<br />

2. <strong>de</strong>s<strong>de</strong> i= 1 hasta i < filas I * columnas I<br />

3. promedio = promedio gris(I[i])<br />

4. si (promedio) >= promedio mínimo) entonces B(i) = 1<br />

5. si (promedio) < promedio mínimo) entonces B(i) = 0<br />

6. fin <strong>de</strong>s<strong>de</strong><br />

Primero, se genera un espejo <strong>de</strong> la imagen original, como una imagen binaria B,<br />

don<strong>de</strong> cada pixel representa una ventana <strong>de</strong> 16x16 en la imagen original I, el tamaño<br />

<strong>de</strong> B es [filas imagen/lado ventana, columnas imagen/lado ventana].<br />

Segundo, se calcula el promedio <strong>de</strong> niveles <strong>de</strong> gris <strong>de</strong> cada ventana y si éste es mayor<br />

que el umbral elegido, se coloca 1 en B en la posición correspondiente (ver la figura 4.3<br />

b). No existe diferencia significativa en los resultados si es que se eligen ventanas <strong>de</strong><br />

8x8 o <strong>de</strong> 16x16 (ver la subsección 8.4.2). El umbral se ha elegido mediante el <strong>de</strong>sarrollo<br />

<strong>de</strong> experimentos; valores bajos <strong>de</strong>l umbral pue<strong>de</strong> incluir regiones sin interés, valores<br />

altos <strong>de</strong>l umbral pue<strong>de</strong> eliminar algunas regiones <strong>de</strong> interés, en especial los bor<strong>de</strong>s <strong>de</strong><br />

la mama; en este caso el umbral es 15 (256 niveles <strong>de</strong> gris).<br />

Figura 4.3: Creación <strong>de</strong> la imagen binaria. a) imagen original, b) imagen binaria.<br />

41


4.3. Corte automático<br />

La imagen es recortada para incluir sólo la región <strong>de</strong> interés, enfocando el proceso<br />

a la región que contiene a la mama y por lo tanto reduciendo el tiempo total <strong>de</strong><br />

procesamiento. Se pue<strong>de</strong> recortar manualmente una imagen, pero este proceso pue<strong>de</strong><br />

tomar tiempo si el número <strong>de</strong> imágenes a tratar es gran<strong>de</strong>; en esta investigación se<br />

requiere que el proceso sea ejecutado automáticamente por el sistema. En la figura 4.4,<br />

se presenta la distribución <strong>de</strong> frecuencias <strong>de</strong>l porcentaje <strong>de</strong> la imagen que contiene a<br />

la mama: en el 5 % <strong>de</strong> las imágenes, la mama ocupa el 20 % <strong>de</strong> la misma, en el 20 %<br />

<strong>de</strong> las imágenes la mama ocupa menos <strong>de</strong>l 27 %, en el 45 % <strong>de</strong> las imágenes la mama<br />

ocupa menos <strong>de</strong>l 34 % y en el 90 % <strong>de</strong> las imágenes la mama ocupa menos <strong>de</strong>l 49 % <strong>de</strong><br />

la misma.<br />

Figura 4.4: Histograma <strong>de</strong>l porcentaje <strong>de</strong> la imagen que ocupa la mama.<br />

El procedimiento se ejecuta realizando los siguientes pasos (ver Pseudocódigo 3.2):<br />

Primero, para eliminar elementos aislados en B, se calcula su centroi<strong>de</strong>, bajo el<br />

supuesto <strong>de</strong> que la mama contiene a su centroi<strong>de</strong> (la mama es un objeto convexo).<br />

Segundo, a partir <strong>de</strong>l centroi<strong>de</strong> se buscan todos los pixeles conectados en vecindad<br />

V 4 (ver la subsección 5.3.1). Este último procedimiento permite extraer solamente la<br />

región conectada que contiene a la mama (ver la figura 4.5 b), obteniéndose la imagen<br />

binaria B ′ .<br />

Tercero, para reconstruir la imagen <strong>de</strong> la mama I ′ , se recorre la imagen binaria<br />

B ′ , si el pixel visitado es 1, se copia la ventana correspondiente <strong>de</strong> I a I ′ , quedando el<br />

resto <strong>de</strong> las regiones en cero.<br />

Cuarto, para el corte vertical, se acumula verticalmente todos los pixeles en B’,<br />

obteniéndose un vector don<strong>de</strong> cada posición indica cuantos pixeles existe en la columna<br />

42


Figura 4.5: Resultados <strong>de</strong>l corte automático. a). imagen binaria (espejo), b). imagen<br />

binaria sin regiones aisladas, c). <strong>de</strong>terminación <strong>de</strong> los extremos para ejecutar los cortes<br />

y d). imagen binaria luego <strong>de</strong>l corte horizontal y vertical.<br />

correspondiente, a continuación se hace una búsqueda <strong>de</strong>s<strong>de</strong> los extremos, se extrae la<br />

posición don<strong>de</strong> se ubica el primer pixel con valor diferente <strong>de</strong> cero tanto a la izquierda<br />

como a la <strong>de</strong>recha (figura 4.5 c). A continuación se ejecuta el corte consi<strong>de</strong>rando las<br />

regiones entre estas dos posiciones. La misma operación se sigue para el corte horizontal.<br />

Este último procedimiento se aplica tanto a la imagen binaria (B ′ ) como a la imagen<br />

original (I ′ ), obteniéndose finalmente los resultados como se muestran en la figura 4.6.<br />

Pseudocódigo 3.2:<br />

Procedure: [I ′ ,B ′ ] = corte automático(I,B)<br />

1. CM = centroi<strong>de</strong>(B)<br />

2. B’ = pixeles conectados(B, CM)<br />

3. <strong>de</strong>s<strong>de</strong> i= 1 hasta i < pixeles B<br />

4. si (B’[i]) = 1)<br />

5. I’[i] = I[i]<br />

6. fin si<br />

7. fin <strong>de</strong>s<strong>de</strong><br />

8. acumV = acumular pixeles vertical( B’)<br />

9. minC = in<strong>de</strong>x diferente cero izquierda (acumV)<br />

10. maxC = in<strong>de</strong>x diferente cero <strong>de</strong>rechaa (acumV)<br />

11. I’ = cortar verticalmente(I’, minC, maxC)<br />

12. B’ = cortar verticalmente(B’, minC, maxC)<br />

13. acumH = acumular pixeles horizonal( B’)<br />

14. minF = in<strong>de</strong>x diferente cero izquierda (acumH)<br />

15. maxF = in<strong>de</strong>x diferente cero <strong>de</strong>rechaa (acumH)<br />

16. I’ = cortar horizontalment(I’, minF, maxF)<br />

17. B’ = cortar horizontalment(B’, minF, maxF)<br />

43


Figura 4.6: Resultados <strong>de</strong>l corte automático. Imagen original e imagen resultante.<br />

4.4. Resumen<br />

Tres procedimientos <strong>de</strong> mejora <strong>de</strong> la imagen son aplicados a la mamografía. El<br />

filtro mediana, con una máscara <strong>de</strong> 3x3 para eliminar el ruido <strong>de</strong> alta frecuencia. La<br />

imagen binaria, que permite crear una imagen espejo <strong>de</strong> la imagen filtrada, don<strong>de</strong> cada<br />

pixel está relacionada con una ventana <strong>de</strong> 16x16 en la imagen filtrada, el pixel <strong>de</strong> la<br />

imagen binaria es puesto en 1 si es que el promedio <strong>de</strong> gris <strong>de</strong> la ventana es mayor que<br />

el umbral, en caso contrario es 0. El corte automático, que permite recortar aquellas<br />

regiones en la imagen que no proporcionan información al proceso, tales como el fondo<br />

y las marcas en la imagen.<br />

44


Capítulo 5<br />

Detección <strong>de</strong> Potenciales Microcalcificaciones<br />

La finalidad <strong>de</strong> esta etapa es <strong>de</strong>tectar las potenciales calcificaciones en la mamografía<br />

(señales) y extraerlas en pequeñas ventanas, para su posterior procesamiento. La<br />

información <strong>de</strong> que la mayoría <strong>de</strong> las calcificaciones son pequeños puntos que pue<strong>de</strong>n<br />

aparecen brillantes en la imagen, es usada para <strong>de</strong>tectarlas (ver la subsección 2.6.2).<br />

El flujograma <strong>de</strong>l procedimiento usado se presenta en la figura 5.1. Se aplican siete<br />

procedimientos: diferencia <strong>de</strong> filtros gaussianos (DoG), binarización global, etiquetado<br />

<strong>de</strong> regiones, selección <strong>de</strong> puntos por área mínima, segmentación <strong>de</strong> la imagen, selección<br />

<strong>de</strong> puntos por promedio <strong>de</strong> gris mínimo y selección <strong>de</strong> puntos por gradiente mínimo.<br />

A esta etapa ingresan la imagen preprocesada (I ′ ) y se obtienen como resultados<br />

el centroi<strong>de</strong> <strong>de</strong> cada señal (P ), la lista <strong>de</strong> señales en segmentos <strong>de</strong> la imagen (MI) y<br />

la lista <strong>de</strong> señales en segmentos <strong>de</strong> la imagen binarizada (MD).<br />

Figura 5.1: Diagrama <strong>de</strong> flujo. Etapa <strong>de</strong> <strong>de</strong>tección <strong>de</strong> microcalcificaciones.<br />

El procedimiento tiene nueve parámetros, las dos máscaras gaussianas, el umbral<br />

<strong>de</strong> binarización global, la vecindad para el etiquetado <strong>de</strong> puntos, el área mínima y el<br />

área máxima para ser consi<strong>de</strong>rado un punto, el tamaño <strong>de</strong> la señales (lado), el promedio<br />

<strong>de</strong> gris mínimo y el gradiente <strong>de</strong> gris mínimo.<br />

45


El filtro DoG cumple un rol importante en esta etapa, dado que permite i<strong>de</strong>ntificar<br />

regiones <strong>de</strong> interés con alto contraste local, la binarización global genera una imagen<br />

binaria <strong>de</strong>s<strong>de</strong> la imagen filtrada con el filtro DoG, el etiquetado <strong>de</strong> regiones permite<br />

marcar los pixeles conectados en vecindad V 4 con una etiqueta y el procedimiento <strong>de</strong><br />

segmentación extrae una lista <strong>de</strong> pequeñas ventanas <strong>de</strong> 9x9 cuyo centro correspon<strong>de</strong> al<br />

centroi<strong>de</strong> <strong>de</strong> cada región etiquetada (punto).<br />

Se usán tres métodos <strong>de</strong> selección para <strong>de</strong>scartar a priori las potenciales calcificaciones<br />

que pue<strong>de</strong>n correspon<strong>de</strong>r a ruido en la imagen o a máximos locales no relacionados<br />

con calcificaciones. El primero elimina todos los puntos con áreas fuera <strong>de</strong>l<br />

rango <strong>de</strong> área permitido, el segundo elimina aquellos puntos con promedio <strong>de</strong> gris fuera<br />

<strong>de</strong>l rango <strong>de</strong> gris permitido y el tercero elimina los puntos con gradiente menor al gradiente<br />

mínimo. Los umbrales y rangos fueron <strong>de</strong>terminados por experimentación (ver<br />

la subsección 8.4.3).<br />

En esta etapa los puntos, o regiones <strong>de</strong> alto contraste local i<strong>de</strong>ntificados por la<br />

aplicación <strong>de</strong>l filtro DoG todavía no pue<strong>de</strong>n ser consi<strong>de</strong>rados como calcificaciones,<br />

primero <strong>de</strong>ben <strong>de</strong> pasar por algunos procesos para adquirir tal categoría. En la figura<br />

5.2 se observa los nombres que adquieren los objetos en su evolución:<br />

Figura 5.2: Nombres que adquieren las regiones i<strong>de</strong>ntificadas en la mamografía.<br />

1. P unto.<br />

Son aquellas regiones brillantes <strong>de</strong>tectadas en la imagen luego <strong>de</strong> aplicarse el filtro<br />

DoG y la binarización. También se les <strong>de</strong>nomina potenciales calcificaciones.<br />

Para que una región se consi<strong>de</strong>re como un punto, su área <strong>de</strong>be <strong>de</strong> ser mayor que<br />

el área mínima y no <strong>de</strong>ben tener todos sus pixeles en 1.<br />

2. Señal.<br />

Son generadas <strong>de</strong>s<strong>de</strong> aquellos puntos que pasaron los tres procesos <strong>de</strong> selección<br />

<strong>de</strong> área mínima, gris mínimo y gradiente mínimo.<br />

3. Calcificación.<br />

Son aquellas señales que obtienen una pon<strong>de</strong>ración positiva luego <strong>de</strong> pasar por<br />

un clasificador previamente entrenado, el clasificador sólo pue<strong>de</strong> respon<strong>de</strong>r: esta<br />

señal es una calcificación o esta señal no es una calcificación.<br />

46


5.1. Diferencia <strong>de</strong> filtros gaussianos<br />

El objetivo <strong>de</strong> este procedimiento es i<strong>de</strong>ntificar aquellas regiones ”brillantes” en<br />

la imagen, esto es regiones con alto contraste que pue<strong>de</strong>n correspon<strong>de</strong>r a potenciales<br />

calcificaciones.<br />

Un filtro gaussiano se obtiene <strong>de</strong>s<strong>de</strong> una distribución gaussiana; cuando es aplicado<br />

a una imagen permite eliminar el ruido <strong>de</strong> alta frecuencia, comportándose como un filtro<br />

suavizante. La distribución gaussiana en 2-D tiene la siguiente fórmula:<br />

G(x, y) = ke (x2 +y 2 )/2σ 2 (5.1)<br />

Don<strong>de</strong> k es la altura <strong>de</strong> la función y σ es la <strong>de</strong>sviación estándar; la distribución<br />

se presenta en la figura 5.3. La distribución gaussiana tiene algunas propieda<strong>de</strong>s interesantes:<br />

nunca llega a ser completamente cero en los extremos, es simétrica respecto<br />

al origen <strong>de</strong> coor<strong>de</strong>nadas y el 95.4 % <strong>de</strong>l área bajo la curva se alcanza en el intervalo<br />

[−3σ, 3σ].<br />

Figura 5.3: Ejemplo <strong>de</strong> una función <strong>de</strong> distribución gaussiana en 2-D.<br />

El filtro DoG es un filtro pasabandas, construido a partir <strong>de</strong> dos filtros gaussianos<br />

simples. Estos dos filtros suavizantes <strong>de</strong>ben tener varianzas diferentes. Al sustraer las<br />

dos imágenes obtenidas luego <strong>de</strong> aplicar cada filtro por separado, se obtiene una imagen<br />

que contiene un rango <strong>de</strong> frecuencia, que es el que interesa <strong>de</strong>tectar (ver la figuras 5.4<br />

y 5.5). El filtro DoG hace búsquedas locales dado que su alcance no es mayor que el<br />

tamaño <strong>de</strong>l filtro.<br />

El filtro DoG se obtiene <strong>de</strong> la diferencia <strong>de</strong> dos funciones gaussianas como se<br />

presenta en la siguiente fórmula:<br />

DoG(x, y) = k 1 e (x2 +y 2 )/2σ 2 1 − k2 e (x2 +y 2 )/2σ 2 2<br />

(5.2)<br />

47


Figura 5.4: Ejemplos <strong>de</strong> máscaras gaussianas usadas con el filtro DoG. a). Máscara 5x5<br />

con σ 1 ≈ 0,7618, b). Máscara 7x7 con σ 2 ≈ 0,8226 y c). Máscara 7x7 <strong>de</strong>l filtro DoG.<br />

Figura 5.5: Gráfica <strong>de</strong> las máscaras Gaussianas usadas con el filtro DoG.<br />

El algoritmo usado para aplicar el filtro DoG a la imagen preprocesada I’, es el<br />

siguiente:<br />

Pseudocódigo 5.1:<br />

Procedure: D = DoG(I ′ ,G1,G2)<br />

1. I1 = filtro mediana(I’, G1)<br />

2. I2 = filtro mediana(I’, G2)<br />

3. D = I1 - I2<br />

4. ancho = (tamaño(G2) - 1) / 2<br />

5. D = poner bor<strong>de</strong> en cero(D, ancho)<br />

Primero, se proce<strong>de</strong> a aplicar los filtros a la imagen preprocesada I’, generando<br />

dos imágenes I1 y I2. Dado que para aplicar la convolución en 2-D.<br />

Segundo, se proce<strong>de</strong> a restar las dos imágenes convolucionadas, generando la imagen<br />

D. La capacidad <strong>de</strong> i<strong>de</strong>ntificar rangos <strong>de</strong> frecuencia apropiados para el problema<br />

<strong>de</strong>pen<strong>de</strong> <strong>de</strong> la relación σ 2 /σ 1 . Lo que interesa en esta nueva imagen es i<strong>de</strong>ntificar los<br />

máximos locales.<br />

48


Tercero, se proce<strong>de</strong> a eliminar las regiones <strong>de</strong>l bor<strong>de</strong>. El filtro DoG también se<br />

pue<strong>de</strong> utilizar para <strong>de</strong>tectar bor<strong>de</strong>s y regiones con gradiente pronunciado, esta situación<br />

se pue<strong>de</strong> presentar en los siguientes casos: a). En los bor<strong>de</strong>s <strong>de</strong> la imagen, b). En las<br />

regiones don<strong>de</strong> existen restos <strong>de</strong> marcas usadas para i<strong>de</strong>ntificar la mamografía y c). En<br />

las regiones con ruido generado al momento <strong>de</strong> digitalizar la imagen.<br />

La etapa <strong>de</strong> preprocesamiento tiene la tarea <strong>de</strong> eliminar estas distorsiones pero no<br />

existe forma <strong>de</strong> evitar el caso a). Es por este motivo que el bor<strong>de</strong> en la imagen D es<br />

puesto en cero, el ancho <strong>de</strong>l bor<strong>de</strong> es <strong>de</strong> (lado filtro − 1)/2, así para un filtro <strong>de</strong> 7x7<br />

el bor<strong>de</strong> a eliminar tiene un ancho <strong>de</strong> 4 pixeles (se consi<strong>de</strong>ra la máscara más gran<strong>de</strong>).<br />

Cuando se trabaja con imágenes <strong>de</strong> 1024x1024 eliminar un bor<strong>de</strong> <strong>de</strong> 4 pixeles no es<br />

significativo, pero con imágenes pequeñas como la usada en el ejemplo, este problema<br />

se hace evi<strong>de</strong>nte.<br />

5.1.1. Aplicación <strong>de</strong>l filtro DoG<br />

Cuando se aplica un filtro gaussiano a una imagen se pue<strong>de</strong> llegar a las siguientes<br />

conclusiones: si su <strong>de</strong>sviación estándar (σ) es baja, entonces se <strong>de</strong>jan pasar las altas<br />

frecuencias, es <strong>de</strong>cir los picos y los valles todavía son pronunciados, pero si la <strong>de</strong>sviación<br />

estándar (σ) es alta se <strong>de</strong>jan pasar las bajas frecuencias.<br />

Esto se pue<strong>de</strong> observar en la figura 5.6, don<strong>de</strong> se trabaja con una señal <strong>de</strong> 1-D. Así,<br />

aplicando la máscara [2, 4, 9, 4, 2] <strong>de</strong> σ 1 = 0,76 (figura 5.6.c), se <strong>de</strong>jan pasar algunos picos<br />

y valles (alta frecuencia), pero con la máscara [2, 4, 8, 16, 8, 4, 2] <strong>de</strong> σ 1 = 0,82 (figura<br />

5.6.d), se <strong>de</strong>jan pasar los picos y valles pero menos pronunciados (baja frecuencia). Si<br />

se resta la primera imagen menos la segunda, entonces se pue<strong>de</strong>n obtener indicadores<br />

<strong>de</strong> estos picos y valles (figura 5.6.b).<br />

En las figuras 5.7 y 5.8 se comparan los resultados <strong>de</strong> aplicar dos filtros DoG.<br />

En el primer caso se aplica un filtro DoG(5x5,7x5) y en el segundo caso un filtro<br />

DoG(5x5,9x9). Hasta este momento no se pue<strong>de</strong>n hacer afirmaciones concluyentes respeto<br />

a las regiones i<strong>de</strong>ntificadas.<br />

Los tamaños <strong>de</strong> los filtros gaussianos usados en esta etapa fueron obtenidos por<br />

experimentación (ver la subsección 8.4.3).<br />

5.2. Binarización<br />

Luego <strong>de</strong> restar las dos imágenes convolucionadas y <strong>de</strong> eliminar el bor<strong>de</strong> <strong>de</strong> la imagen<br />

generada, se proce<strong>de</strong> a binarizar la imagen. El objetivo <strong>de</strong>l proceso <strong>de</strong> binarización<br />

es obtener una imagen en blanco y negro, a partir <strong>de</strong> una imagen con niveles <strong>de</strong> gris. El<br />

problema central en el proceso <strong>de</strong> binarización es ubicar un umbral a<strong>de</strong>cuado (umbral)<br />

que permita separar los pixeles <strong>de</strong> tal manera que aquellos que toman valores menores<br />

49


Figura 5.6: Aplicación <strong>de</strong> un filtro gaussiano 1-D, a). vector <strong>de</strong> datos, b). resultado<br />

<strong>de</strong> restar los datos filtrados, c). datos filtrados con la máscara [2, 4, 9, 4, 2], d). datos<br />

filtrados con la máscara [2, 4, 8, 16, 8, 4, 2].<br />

que el umbral correspondan a 0 y aquellos que toman valores mayores o iguales que el<br />

umbral correspondan a 1, <strong>de</strong> la siguiente manera.<br />

{ 0 si<br />

D ′ D(Pi ) < umbral<br />

(P i ) =<br />

1 en otro caso<br />

(5.3)<br />

El histograma típico <strong>de</strong> la imagen generada por la aplicación <strong>de</strong>l filtro DoG se<br />

presenta en la figura 5.9 don<strong>de</strong> el rango <strong>de</strong> valores obtenidos se encuentra generalmente<br />

entre [−15, 30]. El signo negativo se <strong>de</strong>be <strong>de</strong> que la diferencia pue<strong>de</strong> generar valores<br />

negativos (mínimos locales). Existe fuerte acumulación alre<strong>de</strong>dor <strong>de</strong> los niveles 0, 1 y<br />

2, por otro lado, a medida que el nivel <strong>de</strong> gris crece la frecuencia <strong>de</strong>crece. Los niveles<br />

altos posiblemente correspondan a puntos muy brillantes en la imagen, los niveles con<br />

valores negativos son eliminados con la binarización.<br />

Existen diferentes formas <strong>de</strong> asignar el umbral, tanto manual como automáticamente.<br />

En esta investigación el umbral fue calculado por experimentación (ver la subsección<br />

8.4.3).<br />

En la figura 5.10, se presenta el resultado <strong>de</strong> aplicar diferentes valores para el<br />

50


Figura 5.7: Aplicación <strong>de</strong> filtro [DoG(5x5, 7x7)].<br />

Figura 5.8: Aplicación <strong>de</strong> filtro [DoG(5x5, 9x9)].<br />

51


Figura 5.9: Histograma típico <strong>de</strong> la imagen generada luego <strong>de</strong> aplicar el filtro DoG.<br />

umbral, así para umbral = 0 se logra que casi toda la imagen contenga regiones claras.<br />

A medida que se incrementa el umbral el porcentaje <strong>de</strong> regiones claras se reduce,<br />

para umbral > 5, sólo se pue<strong>de</strong>n i<strong>de</strong>ntificar las regiones muy brillantes. En 5.10.a, se<br />

aplicaron dos filtros gaussianos (DoG(5x5, 7x7)), la relación σ 2 /σ 1 = 0,8226/0,7618 =<br />

1,08. En 5.10.b, se aplicaron dos filtros gaussianos (DoG(5x5, 9x9)), la relación σ 2 /σ 1 =<br />

1,1863/0,7618 = 1,56.<br />

Se pue<strong>de</strong> observar que en el segundo caso que la sensibilidad <strong>de</strong>l proceso es mayor<br />

que en el primer caso. Por otro lado las regiones i<strong>de</strong>ntificadas tienen mayor área, los<br />

que podrían incluir regiones adyacentes con máximos locales.<br />

Figura 5.10: Resultados obtenidos para diferentes umbrales a). DoG(5x5, 7x7) y b).<br />

DoG(5x5, 9x9).<br />

Los resultados <strong>de</strong> los procedimientos <strong>de</strong> aplicación <strong>de</strong>l filtro gaussiano y <strong>de</strong> la<br />

binarización global se pue<strong>de</strong>n observar en la figura 5.7 y en la figura 5.8, don<strong>de</strong> se<br />

comparan los resultados <strong>de</strong> aplicar dos filtros DoG.<br />

52


5.3. Etiquetado <strong>de</strong> regiones<br />

5.3.1. Vecindad <strong>de</strong> pixeles<br />

El concepto <strong>de</strong> vecindad es usado para etiquetar regiones en una imagen binaria.<br />

Una región pue<strong>de</strong> tener sus pixeles conectados si estos se encuentran adyacentes o<br />

vecinos. La vecindad se pue<strong>de</strong> <strong>de</strong>finir <strong>de</strong> dos formas:<br />

1. Vecindad 4 (V 4 ). Cuando los pixeles adyacentes tienen un lado en común (ver la<br />

figura 5.11.a).<br />

2. Vecindad 8 (V 8 ). Cuando los pixeles adyacentes tiene un lado en común o un<br />

vértice en común (ver la figura 5.11.b).<br />

Figura 5.11: Tipos <strong>de</strong> vecindad: a). Vecindad V 4 , b). Vecindad V 8 .<br />

5.3.2. Etiquetado <strong>de</strong> regiones<br />

Luego <strong>de</strong> obtener la imagen binarizada se proce<strong>de</strong> a etiquetarla. El etiquetado<br />

permite i<strong>de</strong>ntificar aquellas regiones conectadas en la imagen, el procedimiento también<br />

es conocido como el algoritmo <strong>de</strong> segmentación por coloreo <strong>de</strong> regiones y se usa cuando<br />

se requiere un análisis exhaustivo <strong>de</strong> la imagen.<br />

En esta investigación se consi<strong>de</strong>ra vecindad V 4 para i<strong>de</strong>ntificar las regiones conectadas.<br />

Posteriormente estas regiones se convertirán en puntos. El algoritmo recorre la<br />

imagen con una máscara <strong>de</strong> tres pixeles conexos, como se muestran en la figura 5.12,<br />

buscando todos los puntos conectados en vecindad 4.<br />

Figura 5.12: Máscara usada en el algoritmo <strong>de</strong> coloreado <strong>de</strong> regiones.<br />

El procedimiento <strong>de</strong> siembra y propagación <strong>de</strong> colores durante la exploración <strong>de</strong><br />

la imagen es el siguiente:<br />

53


Pseudocódigo 5.2:<br />

Procedure:color=etiquetado regiones(D’)<br />

1. k = 1<br />

2. <strong>de</strong>s<strong>de</strong> i = 1 hasta tamaño(D’)<br />

3. si (D’(pc) != 0) entonces<br />

4. si (D’(ps) = 0 y D’(pi) = 0) ; siembra nuevo color<br />

5. color[pc] = k<br />

6. k=k+1<br />

7. fin si<br />

8. si (D’(ps) = 0 & D’(pi) = 1) ; propagación lateral <strong>de</strong>l color<br />

9. color[pc] = color[pi]<br />

10. fin si<br />

11. si (D’(ps) = 1 & D’(pi) = 0) ; propagación <strong>de</strong>scen<strong>de</strong>nte <strong>de</strong>l color<br />

12. color[pc] = color[ps]<br />

13. fin si<br />

14. si (D’(ps) = 1 & D’(pi) = 1)<br />

15. si Si color[pi] = color[ps] ; propagar indistintamente en pi o ps<br />

16. color[pc] = color [pi o ps]<br />

17. sino ; conflicto<br />

18. unir regiones(ps, pi)<br />

19. color[pc] = color [pi o ps]<br />

20. fin si<br />

21. fin si<br />

22. fin <strong>de</strong>s<strong>de</strong><br />

don<strong>de</strong>:<br />

D’(P x): Indica el valor <strong>de</strong>l pixel P x en la imagen binaria D’.<br />

color[P x]: Contiene los colores <strong>de</strong> cada pixel <strong>de</strong> D ′ asignado por el algoritmo,<br />

asocia a P x un color, cada región tiene asignado un color diferente, el fondo<br />

correspon<strong>de</strong> al color 0.<br />

unir regiones(P x 1 , P x 2 ): Permite unir los colores que correspon<strong>de</strong>n a los pixeles<br />

P x 1 y P x 2 , formando una región con un solo color.<br />

El algoritmo toma la imagen binarizada D ′ como entrada y la recorre pixel a pixel,<br />

<strong>de</strong> izquierda a <strong>de</strong>recha y <strong>de</strong> arriba hacia abajo. Estando en cada pixel toma una <strong>de</strong>cisión<br />

sobre el color a asignarle según pertenezca al fondo <strong>de</strong> la imagen o a un objeto. El color<br />

<strong>de</strong> fondo correspon<strong>de</strong> a cero (0) y el <strong>de</strong> los objetos a uno (1).<br />

54


La variable que representa el pixel actual es P c , el pixel ubicado encima <strong>de</strong> P c es P s<br />

y el pixel ubicado a la izquierda <strong>de</strong> P c es P i . Esta representación asegura la exploración<br />

exhaustiva <strong>de</strong> la imagen. Si P c es un pixel <strong>de</strong>l fondo (0), no se realiza ningún cálculo, si<br />

P c es un pixel que pertenece a un objeto (1) se toma una <strong>de</strong>cisión basada en los valores<br />

<strong>de</strong> P s y P i , <strong>de</strong> la siguiente forma:<br />

1. Siembra nuevo color. Cuando P s y P i correspon<strong>de</strong>n al fondo <strong>de</strong> la imagen se<br />

siembra un nuevo color, esto es que se ha encontrado un nuevo objeto, el contador<br />

<strong>de</strong> colores se incrementa en 1.<br />

2. Propagación lateral <strong>de</strong>l color. Cuando el pixel superior es fondo y el pixel <strong>de</strong> la<br />

izquierda es objeto, se propaga el color <strong>de</strong>l objeto al pixel actual.<br />

3. Propagación vertical <strong>de</strong>l color. Cuando el pixel <strong>de</strong> la izquierda es fondo y el pixel<br />

superior es objeto, se propaga el color <strong>de</strong>l objeto al pixel actual.<br />

4. Cruce <strong>de</strong> regiones. Cuando ambos pixeles (superior e izquierdo) son objeto se<br />

verifica si sus colores son iguales, en este caso se propaga alguno <strong>de</strong> ellos; si son<br />

diferentes se aplica el algoritmo unir regiones(P x 1 , P x 2 ) que une ambos objetos<br />

predominando el color <strong>de</strong> menor valor relativo y asignando este nuevo color al<br />

pixel actual. El número <strong>de</strong> colores generados por el algoritmo correspon<strong>de</strong> al<br />

número <strong>de</strong> regiones en la imagen, esta propiedad se usará en la siguiente etapa.<br />

Como resultado <strong>de</strong>l procedimiento se obtiene una nueva imagen (color) don<strong>de</strong> las<br />

regiones conectadas en V 4 son etiquetadas con un número, el fondo es 0 y la etiqueta<br />

mayor es el número <strong>de</strong> regiones. En la figura 5.13 se presenta un ejemplo <strong>de</strong>l etiquetado<br />

<strong>de</strong> regiones en V 4 .<br />

Figura 5.13: Etiquetado <strong>de</strong> regiones. a). Imagen original, b). Imagen coloreada<br />

55


5.4. Selección <strong>de</strong> puntos por área mínima<br />

Este procedimiento permite extraer el centroi<strong>de</strong> <strong>de</strong> cada una <strong>de</strong> las regiones seleccionadas<br />

mediante el procedimiento <strong>de</strong> etiquetado, a<strong>de</strong>más <strong>de</strong> eliminar aquellas regiones<br />

que caen fuera <strong>de</strong>l rango <strong>de</strong> área mínima y máxima. Luego <strong>de</strong> aplicar el procedimiento<br />

cada región se convertirá en un punto, para su posterior tratamiento.<br />

El algoritmo usado es el siguiente:<br />

Pseudocódigo 5.3:<br />

Procedure: [P, D’]=seleccionar área(color, D, área mínima, área máxima)<br />

1. regiones = max(color)<br />

2. n = 1<br />

3. <strong>de</strong>s<strong>de</strong> i = 1 hasta regiones<br />

4. región = pixeles <strong>de</strong> color(i)<br />

5. área = contar pixeles(región)<br />

6. si (área > área mínima & área < área máxima) entonces<br />

7. n = n + 1<br />

8. P[n].CMx = sumar x(región)/área<br />

9. P[n].CMy = sumar y(región)/área<br />

10. P[n].área = área<br />

11. si no<br />

12. D’ = eliminar región(D,i)<br />

13. fin si<br />

14. fin <strong>de</strong>s<strong>de</strong><br />

El algoritmo tiene las siguientes entradas, una imagen que contiene regiones con<br />

pixeles conectados indicando el color que le correspon<strong>de</strong> (color) y imagen binarizada<br />

(D ′ ). Se obtiene como resultado el listado <strong>de</strong> los centros <strong>de</strong> masa <strong>de</strong> cada una <strong>de</strong> las<br />

regiones (P ) y la imagen binarizada luego <strong>de</strong> ser <strong>de</strong>purada (D ′ ). Tiene dos parámetros,<br />

el área mínima (área mínima) y el área máxima (área máxima) para que una región<br />

pueda ser consi<strong>de</strong>rado como un punto.<br />

Primero, se calcula el número <strong>de</strong> regiones y se genera un ciclo para consi<strong>de</strong>rar cada<br />

una <strong>de</strong> las regiones i<strong>de</strong>ntificadas, en este caso el número <strong>de</strong> colores es igual al número<br />

<strong>de</strong> regiones<br />

Segundo, para cada región se verifica que su área se encuentre <strong>de</strong>ntro <strong>de</strong> los límites<br />

dados por área mínima y área máxima. El área mínima se ha consi<strong>de</strong>rado para eliminar<br />

posibles casos <strong>de</strong> ruido y el área máxima se ha consi<strong>de</strong>rado para eliminar regiones<br />

que correspondan a líneas continuas (bor<strong>de</strong>s, marcas, ruido) no eliminadas durante el<br />

proceso <strong>de</strong> binarización. Las regiones que no cumplen el criterio <strong>de</strong> área, son eliminadas<br />

<strong>de</strong> la imagen binarizada D ′ .<br />

56


Tercero, para las regiones que cumplan el criterio <strong>de</strong> área se proce<strong>de</strong> a calcular su<br />

centroi<strong>de</strong>, con respecto al origen <strong>de</strong> la imagen .El resultado es entregado en la estructura<br />

P que luego será usada para i<strong>de</strong>ntificar cada región (punto, señal o calcificación) en la<br />

imagen.<br />

En la figura 5.14.c se pue<strong>de</strong> observar los resultados <strong>de</strong>l proceso <strong>de</strong> selección. Sólo<br />

algunas regiones <strong>de</strong> la figura 5.14.a, han sido seleccionadas, en este caso 27 puntos, la<br />

etiqueta asignada a cada región se muestra en la figura 5.14.b,.<br />

Figura 5.14: Etiquetado <strong>de</strong> regiones. a) imagen binarizada, b) etiquetado <strong>de</strong> regiones,<br />

c) regiones seleccionadas como puntos.<br />

Los valores <strong>de</strong> área mínima y área máxima se calculan en la etapa <strong>de</strong> experimentación<br />

(ver la subsección 8.4.3).<br />

5.5. Segmentación<br />

El procedimiento <strong>de</strong> segmentación extrae pequeñas ventanas <strong>de</strong>s<strong>de</strong> cada imagen<br />

(puntos), cuyo centro correspon<strong>de</strong> al centroi<strong>de</strong> <strong>de</strong> cada punto. Las ventanas se extraen<br />

<strong>de</strong>s<strong>de</strong> la imagen preprocesada I ′ y <strong>de</strong>s<strong>de</strong> la imagen binarizada D ′ . El lado <strong>de</strong> cada<br />

ventana es <strong>de</strong> 9 pixeles (ver la subsección 8.4.3). Los puntos extraídos serán usados en las<br />

siguientes etapas para extraer características <strong>de</strong>s<strong>de</strong> cada una <strong>de</strong> ellas. El procedimiento<br />

usado es el siguiente:<br />

Pseudocódigo 5.4:<br />

Procedure: [MI, MD] = segmentación(I’, D’, P, tamaño lado)<br />

1. puntos = tamaño(P)<br />

2. radio = (tamaño lado - 1) / 2<br />

3. <strong>de</strong>s<strong>de</strong> i = 1 hasta puntos<br />

57


4. Xmin = P[i].CMx - radio<br />

5. Ymin = P[i].CMy - radio<br />

6. MI[i] = cortar imagen(I, Xmin, Ymin, tamaño lado, tamaño lado)<br />

7. MD[i] = cortar imagen(D, Xmin, Ymin, tamaño lado, tamaño lado)<br />

8. MD[i] = extraer objeto conectado(MD[i])<br />

9. fin <strong>de</strong>s<strong>de</strong><br />

El procedimiento recibe como entradas, la imagen preprocesada (I ′ ), la imagen<br />

binarizada (D ′ ) y el listado <strong>de</strong> los centros <strong>de</strong> masa <strong>de</strong> cada punto (P ). Se obtienen<br />

como resultados, la lista <strong>de</strong> puntos tomados <strong>de</strong> la imagen preprocesada (MI) y la lista<br />

<strong>de</strong> puntos tomados <strong>de</strong> la imagen binarizada (MD). Tiene un parámetro, el tamaño <strong>de</strong><br />

la ventana (tamaño lado).<br />

Primero, se calcula el número <strong>de</strong> puntos <strong>de</strong> la imagen binarizada D ′ , dado por el<br />

tamaño <strong>de</strong> P y luego se calcula el radio <strong>de</strong> la ventana que lo va a contener.<br />

Segundo, se genera un ciclo para consi<strong>de</strong>rar cada uno <strong>de</strong> los puntos, se corta un<br />

cuadrado <strong>de</strong> tamaño [tamaño lado, tamaño lado], cuyo centro correspon<strong>de</strong> al centroi<strong>de</strong><br />

<strong>de</strong>l punto, este procedimiento se aplica a las imágenes I ′ y D ′<br />

Tercero, <strong>de</strong>ntro <strong>de</strong>l ciclo anterior, en caso que <strong>de</strong>ntro <strong>de</strong> una ventana se ubiquen<br />

dos o más puntos (ver la figura 5.15.b) se consi<strong>de</strong>ra un solo objeto conectado cuyo<br />

centroi<strong>de</strong> correspon<strong>de</strong> al centro <strong>de</strong> la ventana (ver la figura 5.15.c), dado que <strong>de</strong>ntro <strong>de</strong><br />

una ventana pue<strong>de</strong> extraerse más <strong>de</strong> una región conectada.<br />

Figura 5.15: Ejemplo <strong>de</strong> múltiples puntos ubicados en la misma ventana. a) imagen<br />

preprocesada, b) ventana extraída, c). ventana segmentada.<br />

5.6. Selección <strong>de</strong> puntos por gris mínimo<br />

Este procedimiento permite seleccionar aquellos puntos que cumplen el criterio <strong>de</strong><br />

promedio <strong>de</strong> gris mínimo. Con este propósito se consi<strong>de</strong>ra cada una <strong>de</strong> las ventanas MI<br />

y MD extraídas en la etapa anterior. Las ventanas MD se consi<strong>de</strong>ran como máscaras<br />

<strong>de</strong> la región <strong>de</strong> interés (ROI), así el promedio <strong>de</strong> gris se calcula sólo <strong>de</strong>s<strong>de</strong> aquellas<br />

regiones don<strong>de</strong> cada pixel <strong>de</strong> MD es 1 (ver la figura 5.16)<br />

58


El procedimiento recibe como entradas el listado <strong>de</strong> los centros <strong>de</strong> masa <strong>de</strong> cada<br />

punto (P ), el listado <strong>de</strong> puntos tomados <strong>de</strong> la imagen preprocesada (MI) y el listado<br />

<strong>de</strong> puntos tomados <strong>de</strong> la imagen binarizada (MD). Se obtiene como salida las mismas<br />

entradas. Tiene un parámetro, el gris mínimo (gris mínimo).<br />

El algoritmo usado es el siguiente:<br />

Pseudocódigo 5.5:<br />

Procedure: [P, MI, MD] = selección gris(P, MI, MD, gris mínimo)<br />

1. puntos = tamaño(P)<br />

2. <strong>de</strong>s<strong>de</strong> i = 1 hasta puntos<br />

3. promedio = promedio gris ROI(MI[i], MD[i])<br />

4. si (promedio < gris mínimo) entonces<br />

5. eliminar(P,i)<br />

6. eliminar(MI,i)<br />

7. eliminar(MD,i)<br />

8. fin si<br />

9. fin <strong>de</strong>s<strong>de</strong><br />

Primero, el algoritmo calcula el número <strong>de</strong> puntos en la imagen y genera un ciclo<br />

para consi<strong>de</strong>rar cada uno <strong>de</strong> ellos.<br />

Segundo, para cada punto, calcula el promedio <strong>de</strong> gris <strong>de</strong> la región <strong>de</strong> interés en su<br />

ventana asociada consi<strong>de</strong>rando sólo la región que correspon<strong>de</strong> al punto, sin consi<strong>de</strong>rar<br />

el fondo (ver la figura 5.16).<br />

Tercero, los puntos con promedio <strong>de</strong> gris menores que el gris mínimo son eliminados<br />

<strong>de</strong> las lista P , MI y MD.<br />

Figura 5.16: Cálculo <strong>de</strong>l gris promedio. a). niveles <strong>de</strong> gris (MI), b). máscara <strong>de</strong> la región<br />

<strong>de</strong> interés (MD), c). región <strong>de</strong> interés. Promedio total = 166, Promedio ROI = 175.<br />

Para <strong>de</strong>terminar el valor <strong>de</strong>l parámetro gris mínimo, se elaboró la distribución <strong>de</strong><br />

frecuencias <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> cada calcificación usada en el proceso <strong>de</strong> entrenamiento<br />

(ver la subsección 8.4.3)<br />

59


5.7. Selección por gradiente mínimo<br />

Este procedimiento tiene por objetivo seleccionar aquellos puntos don<strong>de</strong> el gradiente<br />

<strong>de</strong> gris <strong>de</strong> la ventana es mayor que cierto valor gradiente mínimo. El valor <strong>de</strong>l<br />

gradiente mínimo es calculado restando el nivel promedio <strong>de</strong> gris <strong>de</strong> la región que<br />

contiene el punto, menos el nivel promedio <strong>de</strong> gris <strong>de</strong> la región <strong>de</strong>l fondo <strong>de</strong>l punto. Se<br />

preten<strong>de</strong> que las calcificaciones tengan niveles significativos <strong>de</strong> contraste.<br />

contraste absoluto = promedio punto − promedio fondo (5.4)<br />

Este criterio <strong>de</strong> selección se <strong>de</strong>terminó en la etapa <strong>de</strong> experimentación, dado<br />

que permite <strong>de</strong>purar gran cantidad <strong>de</strong> puntos con gradientes menos que el umbral<br />

y que tienen baja probabilidad <strong>de</strong> ser calcificaciones potenciales. El valor <strong>de</strong>l umbral<br />

gradiente mínimo fue calculado por experimentación (ver la subsección 8.4.3).<br />

5.8. Resumen<br />

Cuatro procedimientos son aplicados a la imagen preprocesada con la finalidad <strong>de</strong><br />

i<strong>de</strong>ntificar potenciales calcificaciones (puntos), estos son el filtro DoG, la binarización<br />

global, el etiquetado <strong>de</strong> regiones y la segmentación <strong>de</strong> regiones. Los parámetros asociados<br />

a cada procedimiento son calculados por experimentación. Tres procedimientos <strong>de</strong><br />

selección son aplicados a los puntos con la finalidad <strong>de</strong> reducir su número y obtener<br />

una lista reducida <strong>de</strong> señales i<strong>de</strong>ntificadas, estos son selección por área mínima y área<br />

máxima, selección por gris mínimo y selección por gradiente <strong>de</strong> gris mínimo. En la siguiente<br />

etapa se extrae un conjunto <strong>de</strong> características <strong>de</strong>s<strong>de</strong> cada señal con la finalidad<br />

<strong>de</strong> clasificarlas en calcificaciones.<br />

60


Capítulo 6<br />

Clasificación <strong>de</strong> Señales en Microcalcificaciones<br />

La finalidad <strong>de</strong> esta etapa es clasificar aquellas señales i<strong>de</strong>ntificadas en la etapa<br />

anterior en dos grupos: es calcificación o no es calcificación, con este propósito se<br />

extrae un conjunto <strong>de</strong> características Sm <strong>de</strong>s<strong>de</strong> cada señal, se seleccionan algunas <strong>de</strong><br />

ellas y se entrena un clasificador. El proceso <strong>de</strong> extracción <strong>de</strong> características permite<br />

extraer propieda<strong>de</strong>s frecuentemente usadas en sistemas <strong>de</strong> procesamiento <strong>de</strong> imágenes<br />

Sm. El proceso <strong>de</strong> selección <strong>de</strong> características permite reducir la dimensionalidad <strong>de</strong><br />

Sm y el clasificador permite <strong>de</strong>terminar a qué clase pertenece la señal. Algunas <strong>de</strong> las<br />

características extraídas en esta etapa fueron usadas en algunos trabajo relacionados<br />

(Yu [91] et.al., Cor<strong>de</strong>lla [17] et.al. y Salfity [76] et.al.) y otros fueron implementados<br />

tomando como referencia la bibliografía consultada. Uno <strong>de</strong> los objetivos <strong>de</strong> esta investigación<br />

es <strong>de</strong>terminar que subconjunto <strong>de</strong> características (Sm ′ ) es el que proporciona<br />

suficiente información como para clasificar una señal en calcificación.<br />

El flujograma <strong>de</strong>l procedimiento usado en esta etapa se presenta en la figura 6.1. Se<br />

aplican tres procedimientos, extracción <strong>de</strong> características, selección <strong>de</strong> características y<br />

clasificación. Adicionalmente se consi<strong>de</strong>ra el proceso <strong>de</strong> entrenamiento <strong>de</strong>l clasificador.<br />

Figura 6.1: Diagrama <strong>de</strong> flujo. Etapa <strong>de</strong> extracción <strong>de</strong> características y clasificación.<br />

61


A esta etapa ingresan, el centroi<strong>de</strong> <strong>de</strong> cada señal (P ′ ), el listado <strong>de</strong> las señales<br />

tomadas <strong>de</strong> la imagen preprocesada (MI) y el listado <strong>de</strong> señales tomadas <strong>de</strong> la imagen<br />

binarizada (MD). Se obtiene como salida el centroi<strong>de</strong> <strong>de</strong> cada calcificación (P ′ ) y la<br />

lista <strong>de</strong> características <strong>de</strong> cada señal (Sm ′ ).<br />

El procedimiento tiene como parámetros la clase a la que pertenece cada señal<br />

(clase) y el número <strong>de</strong> intervalos <strong>de</strong> discretización (intervalos).<br />

El procedimiento <strong>de</strong> extracción <strong>de</strong> características, obtiene 47 características <strong>de</strong>s<strong>de</strong><br />

cada señal, el procedimiento <strong>de</strong> selección características usa una <strong>de</strong>rivación <strong>de</strong>l algoritmo<br />

<strong>de</strong> búsqueda secuencial hacia <strong>de</strong>lante para <strong>de</strong>cidir que subconjunto <strong>de</strong> características<br />

minimizan el error <strong>de</strong> un clasificador. El procedimiento <strong>de</strong> clasificación es implementado<br />

mediante una red neuronal <strong>de</strong> retropropagación <strong>de</strong> tres capas.<br />

6.1. Extracción <strong>de</strong> características<br />

En total se extrajeron 47 características <strong>de</strong>s<strong>de</strong> cada señal, muchas <strong>de</strong> ellos se<br />

utilizaron en investigaciones previas relacionadas (Yu [91] et.al., Cor<strong>de</strong>lla [17] et.al. y<br />

Salfity [76] et.al.). Por otro lado se hizo una compilación <strong>de</strong> características frecuentemente<br />

utilizadas en el reconocimiento <strong>de</strong> patrones en imágenes binarias e imágenes en<br />

escala <strong>de</strong> grises. Las características pue<strong>de</strong> ser clasificadas en 6 grupos:<br />

1. Contraste <strong>de</strong> la señal (7).<br />

Se obtienen características relacionadas con el nivel <strong>de</strong> gris <strong>de</strong> los pixeles que<br />

conforman la señal.<br />

2. Contraste <strong>de</strong>l fondo (7).<br />

Se obtienen características relacionadas con el nivel <strong>de</strong> gris <strong>de</strong> los pixeles que<br />

conforman el fondo <strong>de</strong> la ventana que contiene la señal.<br />

3. Contraste relativo (3).<br />

Se extraen características que relaciona el promedio <strong>de</strong> gris <strong>de</strong> la señal con la <strong>de</strong>l<br />

fondo.<br />

4. Características <strong>de</strong> forma (19).<br />

Se extraen características que <strong>de</strong>scriben la forma <strong>de</strong> la señal.<br />

5. Momentos <strong>de</strong> la secuencia <strong>de</strong>l contorno (6).<br />

Se extraen 4 momentos <strong>de</strong> forma, promedio y <strong>de</strong>sviación estándar <strong>de</strong> la distancia<br />

al centroi<strong>de</strong> <strong>de</strong> la señal.<br />

6. Momentos geométricos invariantes (4).<br />

Se extraen los 4 primeros momentos invariantes <strong>de</strong> Hu [48].<br />

62


Las características <strong>de</strong> contraste extraen atributos <strong>de</strong>s<strong>de</strong> el nivel <strong>de</strong> gris, las características<br />

<strong>de</strong> forma <strong>de</strong>scriben las propieda<strong>de</strong>s estructurales <strong>de</strong> la señal. Las características<br />

extraídas pasarán luego por el proceso <strong>de</strong> selección (ver la sección 6.2) don<strong>de</strong> se<br />

<strong>de</strong>terminará el subconjunto que tiene significancia en el proceso <strong>de</strong> clasificación.<br />

Para facilitar el <strong>de</strong>sarrollo <strong>de</strong> las fórmulas en este capítulo se usa las variables:<br />

1. I. Imagen en escala <strong>de</strong> grises <strong>de</strong> la señal, se extrae <strong>de</strong>s<strong>de</strong> la variable MI (figura<br />

6.2.a)<br />

2. B. Imagen binaria <strong>de</strong> la señal, se extrae <strong>de</strong>s<strong>de</strong> la variable MD (figura 6.2.b).<br />

3. I ′ . Imagen en escala <strong>de</strong> grises <strong>de</strong> la señal, con ceros en los pixeles que no correspon<strong>de</strong>n<br />

a la señal, se calcula <strong>de</strong> la siguiente manera.<br />

I ′ (f, c) = I(f, c) ∗ B(f, c), paraf = 1..N f y c = 1..N c (6.1)<br />

Don<strong>de</strong> N f = N c es número <strong>de</strong> filas y <strong>de</strong> columnas respectivamente <strong>de</strong> la señal.<br />

4. F ′ . Imagen en escala <strong>de</strong> grises <strong>de</strong>l fondo <strong>de</strong> la señal, con ceros en los pixeles que<br />

correspon<strong>de</strong>n a la señal.<br />

I ′ (f, c) = I(f, c) ∗ (1 − B(f, c)), paraf = 1..N f y c = 1..N c (6.2)<br />

Figura 6.2: Señales. a) Imagen en escala <strong>de</strong> grises, b) Imagen binaria, c) Imagen en<br />

escala <strong>de</strong> grises, con ceros en los pixeles <strong>de</strong>l fondo y d) Imagen en escala <strong>de</strong> grises con<br />

ceros en los pixeles <strong>de</strong> la señal<br />

63


6.1.1. Contraste <strong>de</strong> la señal<br />

Estas características se extraen sólo <strong>de</strong> los pixeles que conforman la señal sin<br />

consi<strong>de</strong>rar los pixeles <strong>de</strong>l fondo.<br />

1. Nivel gris máximo.<br />

Obtiene el mayor nivel <strong>de</strong> gris en la señal.<br />

2. Nivel gris mínimo.<br />

Obtiene el menor nivel <strong>de</strong> gris en la señal.<br />

gris máximo = max(I ′ ) (6.3)<br />

gris mínimo = min(I ′ ) (6.4)<br />

3. Mediana <strong>de</strong>l nivel gris.<br />

Obtiene la mediana <strong>de</strong> los niveles <strong>de</strong> gris en la señal, la mediana es el nivel <strong>de</strong><br />

gris central y divi<strong>de</strong> su histograma en dos partes.<br />

gris mediana = mediana(I ′ ) (6.5)<br />

4. Nivel promedio <strong>de</strong> gris.<br />

Obtiene el promedio <strong>de</strong> los niveles <strong>de</strong> gris en la señal, es un buen indicador <strong>de</strong><br />

su nivel <strong>de</strong> brillo, se usará más a<strong>de</strong>lante para ser comparado con el promedio <strong>de</strong><br />

gris <strong>de</strong>l fondo.<br />

¯x = 1 N<br />

f=N<br />

∑ f<br />

f=1<br />

c=N<br />

∑ c<br />

c=1<br />

I ′ (f, c) (6.6)<br />

Don<strong>de</strong> N es el área <strong>de</strong> la imagen binaria (ver la fórmula 6.13).<br />

5. Desviación estándar <strong>de</strong>l nivel <strong>de</strong> gris.<br />

Obtiene la <strong>de</strong>sviación estándar <strong>de</strong> los niveles <strong>de</strong> gris <strong>de</strong> la señal, es un buen<br />

indicador <strong>de</strong>l nivel <strong>de</strong> ruido. Valores bajos en la <strong>de</strong>sviación estándar indicarán un<br />

superficie suave.<br />

σ 2 = 1 N<br />

f=N<br />

∑ f<br />

f=1<br />

c=N<br />

∑ c<br />

(I ′ (f, c) − ¯x) 2 (6.7)<br />

c=1<br />

64


6. Asimetría <strong>de</strong>l nivel <strong>de</strong> gris (Skewness).<br />

Obtiene la asimetría <strong>de</strong> los niveles <strong>de</strong> gris en la señal. Este estadístico es una<br />

medida <strong>de</strong>l nivel <strong>de</strong> asimetría que presenta el histograma (ver la figura 6.3).<br />

Indica si la cola más larga <strong>de</strong>l histograma se encuentra <strong>de</strong>sviada hacia la <strong>de</strong>recha,<br />

centrada o <strong>de</strong>sviada hacia la izquierda. Si está a la izquierda, el coeficiente es<br />

negativo y si está <strong>de</strong>sviada a la <strong>de</strong>recha es positivo, la fórmula analítica es la<br />

siguiente:<br />

Sk = 1<br />

f=N<br />

∑ f<br />

Nσ 3<br />

f=1<br />

c=N<br />

∑ c<br />

(I ′ (f, c) − ¯x) 3 (6.8)<br />

c=1<br />

Figura 6.3: Asimetría <strong>de</strong> una distribución <strong>de</strong> frecuencias.<br />

7. Kurtosis <strong>de</strong>l nivel <strong>de</strong> gris.<br />

Obtiene el kurtosis <strong>de</strong> los niveles <strong>de</strong> gris en la señal. Este estadístico indica si<br />

las colas <strong>de</strong>l histograma tienen una altura superior, igual o inferior a la <strong>de</strong> una<br />

distribución normal, por lo general se le resta 3 (ver la figura 6.4). Si el coeficiente<br />

es negativo se le llamará platicúrtica o platykúrtica y los extremos estarán por<br />

<strong>de</strong>bajo <strong>de</strong> la curva normal. Si el coeficiente es igual a cero, se le llamará mesocúrtica<br />

o mesokúrtica. Si el coeficiente es mayor que cero se le llamará leptocúrtica o<br />

leptokúrtica y los extremos estarán por encima la curva normal<br />

K = 1<br />

f=N<br />

∑ f<br />

Nσ 4<br />

f=1<br />

c=N<br />

∑ c<br />

(I ′ (f, c) − ¯x) 4 − 3 (6.9)<br />

c=1<br />

6.1.2. Contraste <strong>de</strong>l fondo<br />

Estas características se extraen sólo <strong>de</strong> los pixeles que conforman el fondo <strong>de</strong> la<br />

señal. Correspon<strong>de</strong> a los indicadores <strong>de</strong>l grupo anterior.<br />

1. Nivel gris máximo <strong>de</strong>l fondo.<br />

Obtiene el mayor nivel <strong>de</strong> gris <strong>de</strong>l fondo.<br />

65


Figura 6.4: Kurtosis <strong>de</strong> una distribución <strong>de</strong> frecuencias.<br />

2. Nivel gris mínimo <strong>de</strong>l fondo.<br />

Obtiene el menor nivel <strong>de</strong> gris <strong>de</strong>l fondo.<br />

3. Mediana <strong>de</strong>l nivel gris <strong>de</strong>l fondo.<br />

Obtiene la mediana <strong>de</strong> los niveles <strong>de</strong> gris <strong>de</strong>l fondo.<br />

4. Nivel promedio <strong>de</strong> gris <strong>de</strong>l fondo.<br />

Obtiene el promedio <strong>de</strong> los niveles <strong>de</strong> gris <strong>de</strong>l fondo.<br />

5. Desviación estándar <strong>de</strong>l nivel <strong>de</strong> gris <strong>de</strong>l fondo.<br />

Obtiene la <strong>de</strong>sviación estándar promedio <strong>de</strong> los niveles <strong>de</strong> gris <strong>de</strong>l fondo.<br />

6. Asimetría <strong>de</strong>l nivel <strong>de</strong> gris <strong>de</strong>l fondo (Skewness).<br />

Obtiene la asimetría <strong>de</strong> los niveles <strong>de</strong> gris <strong>de</strong>l fondo.<br />

7. Kurtosis <strong>de</strong>l nivel <strong>de</strong> gris <strong>de</strong>l fondo.<br />

Obtiene el kurtosis <strong>de</strong> los niveles <strong>de</strong> gris <strong>de</strong>l fondo.<br />

6.1.3. Contraste relativo<br />

Estas características intentan encontrar relaciones entre el promedio <strong>de</strong> gris <strong>de</strong> la<br />

señal con el promedio <strong>de</strong> gris <strong>de</strong>l fondo. Mi<strong>de</strong>n el contraste.<br />

1. Contraste absoluto.<br />

Calcula el promedio <strong>de</strong> gris en la señal menos el promedio <strong>de</strong> gris <strong>de</strong>l fondo,<br />

proporciona una medida <strong>de</strong> contraste.<br />

contraste absoluto = promedio señal − promedio fondo (6.10)<br />

2. Contraste relativo.<br />

El contraste relativo se calcula <strong>de</strong> la siguiente forma:<br />

contraste relativo =<br />

promedio señal − promedio fondo<br />

promedio señal + promedio fondo<br />

(6.11)<br />

66


3. Contraste proporcional.<br />

El contraste relativo se calcula <strong>de</strong> la siguiente forma;<br />

contraste proporcional =<br />

promedio señal<br />

promedio fondo<br />

(6.12)<br />

6.1.4. Características <strong>de</strong> forma<br />

Estas características intentan <strong>de</strong>scribir las propieda<strong>de</strong>s geométricas y estructurales<br />

<strong>de</strong> la señal. En todos los casos se ha consi<strong>de</strong>rado la imagen binarizada B.<br />

1. Área.<br />

Calcula el número <strong>de</strong> pixeles que ocupa la señal en la ventana. El caso en que<br />

dos o más señales se encuentren <strong>de</strong>ntro la ventana fue resuelto en la etapa <strong>de</strong><br />

segmentación (ver la sección 5.5), lo que asegura que la señal sea un objeto único<br />

y conexo.<br />

área =<br />

f=N<br />

∑ f<br />

f=1<br />

f=N<br />

∑ c<br />

c=1<br />

B(f, c) (6.13)<br />

Don<strong>de</strong> N f y N c correspon<strong>de</strong>n al tamaño <strong>de</strong>l lado <strong>de</strong> la ventana que contiene a la<br />

señal, B es la ventana y B(f, c) es un pixel en la señal.<br />

2. Área Convexa.<br />

Calcula el área que ocupa un polígono convexo que contiene a la señal (ver la<br />

figura 6.5).<br />

Figura 6.5: Área convexa.<br />

3. Área <strong>de</strong>l fondo.<br />

Calcula el área que ocupa el fondo en la señal.<br />

área fondo =<br />

f=N<br />

∑ f<br />

f=1<br />

∑<br />

(1 − B(f, c)) (6.14)<br />

f=N c<br />

c=1<br />

67


4. Perímetro <strong>de</strong>l bor<strong>de</strong>.<br />

Calcula la longitud <strong>de</strong>l perímetro en la señal. En esta investigación el perímetro<br />

se obtiene removiendo todos los pixeles <strong>de</strong>l centro en la señal, y luego contando<br />

el número <strong>de</strong> pixeles que conforman el bor<strong>de</strong> resultante.<br />

Figura 6.6: Perímetro <strong>de</strong> la señal.<br />

5. Diámetro máximo.<br />

Calcula el diámetro máximo en la señal, esto es la distancia entre los extremos<br />

más lejanos.<br />

Este valor es encontrado calculando la distancia entre todos los puntos <strong>de</strong>l perímetro<br />

y buscando el par <strong>de</strong> puntos (x 1 , y 1 ) y (x 2 , y 2 ) con la mayor distancia. La distancia<br />

está dada por la relación.<br />

diámetro máximo = √ (x 2 − x 1 ) 2 + (y 2 − y 1 ) 2 (6.15)<br />

6. Diámetro mínimo.<br />

Calcula el diámetro mínimo en la señal. Este valor es calculado buscando la mayor<br />

distancia que existe entre los pares <strong>de</strong> puntos <strong>de</strong>l perímetro que formen una línea<br />

perpendicular con el diámetro máximo.<br />

Figura 6.7: Diámetro máximo y diámetro mínimo.<br />

Las rectas que contienen a los diámetros mayor y menor son conocidas como los<br />

ejes principales (Fontoura [18]) <strong>de</strong> la imagen.<br />

7. Diámetro circular equivalente.<br />

Este indicador es el equivalente al diámetro <strong>de</strong> un círculo con el área que ocupa<br />

la señal, es un medida lineal y se calcula con la siguiente fórmula:<br />

68


√<br />

4<br />

dce = área (6.16)<br />

π<br />

8. Longitud <strong>de</strong> fibra.<br />

Este indicador proporciona una medida en cuanto a la longitud <strong>de</strong> un hilo que<br />

atraviesa el objeto (ver la figura 6.8). Se asume que el objeto a medir tiene la<br />

forma <strong>de</strong> una fibra (hilo).<br />

Se calcula con la siguiente fórmula:<br />

longitud <strong>de</strong> fibra = perímetro − √ perímetro 2<br />

4<br />

− 16área<br />

(6.17)<br />

9. Ancho <strong>de</strong> fibra.<br />

Es una medida <strong>de</strong>l ancho <strong>de</strong> una fibra que atraviesa un objeto (ver la figura 6.8),<br />

se calcula <strong>de</strong> la siguiente forma.<br />

ancho <strong>de</strong> fibra =<br />

área<br />

longitud <strong>de</strong> fibra<br />

(6.18)<br />

Figura 6.8: Longitud <strong>de</strong> fibra y ancho <strong>de</strong> fibra.<br />

10. Enrollamiento. (curl)<br />

Es una medida <strong>de</strong>l grado en que un objeto está enrollado (ver la figura 6.9), se<br />

<strong>de</strong>fine mediante la siguiente fórmula:<br />

enrollamiento =<br />

diámetro máximo<br />

longitud <strong>de</strong> fibra<br />

(6.19)<br />

69


Figura 6.9: Enrollamiento <strong>de</strong> algunas formas.<br />

11. Factor <strong>de</strong> forma (circularidad).<br />

Este es un indicador en cuanto a la forma en la señal. Este indicador para un<br />

círculo es 1, para un cuadrado es 0.78 y para una fibra muy <strong>de</strong>lgada es cercano a<br />

0.0.<br />

factor <strong>de</strong> forma =<br />

4π área<br />

(6.20)<br />

perímetro 2<br />

12. Redon<strong>de</strong>z.<br />

En el caso <strong>de</strong> un círculo este valor es cercano a 1, en otras formas este valor se<br />

incrementa.<br />

redon<strong>de</strong>z =<br />

4 área<br />

π (diámetro máximo) 2 (6.21)<br />

13. Elongación .<br />

Se calcula como el cociente entre el diámetro mínimo y el diámetro máximo. Este<br />

valor pue<strong>de</strong> estar entre 0 y 1. Si la elongación es 1, la señal tendrá la forma <strong>de</strong><br />

un cuadrado. Este valor <strong>de</strong>crece a medida que el objeto se alarga (ver la figura<br />

6.10).<br />

elongación 1 =<br />

diámetro mínimo<br />

diámetro máximo<br />

Otra fórmula encontrada en la bibliografía es la siguiente:<br />

elongación 2 =<br />

ancho fibra<br />

longitud fibra<br />

(6.22)<br />

(6.23)<br />

14. Excentricidad.<br />

La excentricidad correspon<strong>de</strong> a la excentricidad <strong>de</strong> la elipse que tiene los mismos<br />

segundos momentos que la región. Su valor se calcula dividiendo la distancia entre<br />

70


Figura 6.10: Elongación <strong>de</strong> dos objetos. a). alta elongación, b). baja elongación.<br />

los focos <strong>de</strong> la elipse y el diámetro máximo. Su valor está entre 0 y 1. Es 0 para<br />

el caso <strong>de</strong> un círculo y es 1 en el caso <strong>de</strong> una línea.<br />

excentricidad =<br />

distancia focal<br />

diámetro máximo<br />

(6.24)<br />

15. Relación <strong>de</strong> aspecto.<br />

Es la relación entre el diámetro máximo y el diámetro mínimo <strong>de</strong> la señal.<br />

relación <strong>de</strong> aspecto =<br />

diámetro máximo<br />

diámetro mínimo<br />

(6.25)<br />

16. Compacidad.<br />

La compacidad es una medida <strong>de</strong> qué tan aglutinada o compacta es la señal. Se<br />

pue<strong>de</strong> calcular <strong>de</strong> tres formas:<br />

compacidad 1 = perímetro2<br />

área<br />

(6.26)<br />

compacidad 2 = perímetro2<br />

4π área<br />

(6.27)<br />

compacidad 3 =<br />

√<br />

( 4 π ) área<br />

diámetro máximo<br />

(6.28)<br />

compacidad 1 , para objetos con bor<strong>de</strong>s irregulares tendrán un valor alto.<br />

compacidad 2 , toma valores mayores que 1 (caso <strong>de</strong> un círculo perfecto), es la<br />

inversa <strong>de</strong> la circularidad, o la inversa <strong>de</strong> una medida <strong>de</strong> redon<strong>de</strong>z <strong>de</strong>l objeto<br />

compacidad 3 , fue encontrado en la bibliografía (Russ [74]).<br />

En esta investigación se consi<strong>de</strong>ra las tres características, en la etapa <strong>de</strong> selección<br />

<strong>de</strong> características (ver la sección 6.2) se evaluará la bondad <strong>de</strong> cada una.<br />

71


17. Soli<strong>de</strong>z.<br />

Es una medida <strong>de</strong> la <strong>de</strong>nsidad en la señal, se obtiene como una relación entre el<br />

área <strong>de</strong>l objeto y el área convexa que lo contiene. Valores cercanos a 1 significan<br />

que el objeto es sólido, valores menores que uno significan que el objeto tiene<br />

algunos bor<strong>de</strong>s irregulares.<br />

soli<strong>de</strong>z =<br />

área<br />

área convexa<br />

(6.29)<br />

Figura 6.11: Soli<strong>de</strong>z <strong>de</strong> algunos objetos: a). 0.90, b). 0.85, c). 0.84, d). 0.75, e). 1.00<br />

6.1.5. Momentos <strong>de</strong> la secuencia <strong>de</strong> contorno<br />

Los momentos <strong>de</strong> la secuencia <strong>de</strong> contorno permiten extraer características <strong>de</strong>s<strong>de</strong><br />

formas planas y cerradas, en este caso las señales. Estos momentos son calculados<br />

<strong>de</strong>s<strong>de</strong> un secuencia unidimensional que representa la distancia euclidiana entre el centroi<strong>de</strong><br />

en la señal y los pixeles <strong>de</strong>l contorno, las secuencias <strong>de</strong> contorno obtenidas <strong>de</strong><br />

un objeto <strong>de</strong> la misma clase tien<strong>de</strong>n a ser iguales. Estos momentos son invariantes a<br />

la traslación, rotación y transformaciones <strong>de</strong> escala. El momento <strong>de</strong> la secuencia <strong>de</strong><br />

contorno se pue<strong>de</strong>n utilizar en la <strong>de</strong>scripción <strong>de</strong> formas don<strong>de</strong> el bor<strong>de</strong> es característico<br />

y correspon<strong>de</strong> a un límite cerrado.<br />

Un límite cerrado es caracterizado por una secuencia z(i) que represente la distancia<br />

euclidiana entre el centro <strong>de</strong> la figura y el pixel i; no es necesario hacer ningún<br />

proceso para las formas con contornos cóncavos. Esta secuencia es conocida como la<br />

firma <strong>de</strong> las distancias <strong>de</strong>l centroi<strong>de</strong> al contorno y se pue<strong>de</strong> representar gráficamente<br />

(ver la figura 6.12), don<strong>de</strong> el eje <strong>de</strong> las abscisas (t) es el ángulo que se forma con un<br />

eje horizontal que pasa por el centroi<strong>de</strong> <strong>de</strong> la imagen y otro eje que va <strong>de</strong>l centroi<strong>de</strong> al<br />

cada pixel <strong>de</strong>l contorno. Estos momentos se utilizaron en los trabajos <strong>de</strong> Woods [88],<br />

Gupta [43] y Chung [79]<br />

En resumen, estos momentos se pue<strong>de</strong>n usar si el objeto pue<strong>de</strong> ser <strong>de</strong>scrito como un<br />

secuencia z(i), i = 1, 2, 3, ....N, que representan la distancia euclidiana entre el centroi<strong>de</strong><br />

<strong>de</strong>l objeto y cada uno <strong>de</strong> los pixeles <strong>de</strong>l contorno, esta secuencia es unidimensional. Dada<br />

la secuencia <strong>de</strong> z(i), el i-ésimo momento pue<strong>de</strong> ser calculado como:<br />

72


Figura 6.12: Firma <strong>de</strong> un objeto<br />

m r = 1 ∑i=N<br />

[z(i)] r (6.30)<br />

N<br />

i=1<br />

el i-ésimo momento central pue<strong>de</strong> ser estimado como:<br />

µ r = 1 ∑i=N<br />

[z(i) − m 1 ] r (6.31)<br />

N<br />

el i-ésimo momento normalizado pue<strong>de</strong> ser estimado como:<br />

i=1<br />

m r =<br />

m r<br />

(µ 2 ) r/2 (6.32)<br />

el i-ésimo momento central normalizado pue<strong>de</strong> ser estimado como:<br />

µ r = µ r<br />

(µ 2 ) r/2 (6.33)<br />

Los resultados menos sensibles al ruido pue<strong>de</strong>n ser calculados como los siguientes<br />

<strong>de</strong>scriptores:<br />

F 1 = (µ 2) 1/2<br />

m 1<br />

= [ 1 N<br />

∑ N<br />

i=1 [z(i) − m 1] 2 ] 1/2<br />

∑<br />

1 N<br />

N i=1 z(i) (6.34)<br />

F 2 = µ ∑<br />

1 N<br />

3<br />

(µ 2 ) = N i=1 [z(i) − m 1] 3<br />

3/2 ∑ N<br />

i=1 [z(i) − m (6.35)<br />

1] 2 ] 3/2<br />

[ 1 N<br />

F 3 = µ ∑<br />

1 N<br />

4<br />

(µ 2 ) = N i=1 [z(i) − m 1] 4<br />

4/2 ∑ N<br />

i=1 [z(i) − m (6.36)<br />

1] 2 ] 2<br />

[ 1 N<br />

F 4 = µ 5<br />

(µ 2 ) 5/2 = µ 5 (6.37)<br />

F 2 , es conocido como la variación <strong>de</strong> amplitud normalizada. F 3 como el coeficiente<br />

<strong>de</strong> la asimetría, y F 4 como el coeficiente <strong>de</strong> kurtosis.<br />

73


Shen [78] propone una modificación a estos <strong>de</strong>scriptores y presenta la siguiente<br />

fórmula genérica para los momentos <strong>de</strong> la secuencia <strong>de</strong> contorno. Estos momentos<br />

modificados son usados por Woods [88].<br />

don<strong>de</strong>:<br />

F ′ n = [ 1 N<br />

∑ N<br />

i=1 [z(i) − m 1] n ] 1/n<br />

m 1<br />

(6.38)<br />

m 1 = 1 ∑i=N<br />

z(i) (6.39)<br />

N<br />

Shen <strong>de</strong>muestra estos resultados presentando el siguiente cuadro:<br />

Cuadro 6.1: Momentos <strong>de</strong> la secuencia <strong>de</strong> contorno y <strong>de</strong>scriptores modificados por Shen.<br />

i=1<br />

Forma F 1 F 2 F 3 F 1 ′ F 2 ′ F 3 ′ F 3 ′ − F 1<br />

′<br />

círculo 0.007 0.173 1.929 0.007 0.004 0.008 0.001<br />

cuadrado 0.108 0.512 2.013 0.108 0.087 0.129 0.021<br />

rectángulo 0.248 -0.327 1.543 0.248 -0.171 0.277 0.029<br />

triángulo isósceles 0.305 0.203 2.265 0.305 0.179 0.374 0.069<br />

triángulo recto 0.371 0.053 1.943 0.371 0.140 0.438 0.067<br />

En esta investigación se hace uso <strong>de</strong> los 4 primeros momentos propuestos por<br />

Shen y <strong>de</strong> dos características adicionales: el promedio y la <strong>de</strong>sviación estándar <strong>de</strong> las<br />

distancias <strong>de</strong>l centroi<strong>de</strong> al contorno.<br />

6.1.6. Momentos geométricos invariantes<br />

Los momentos <strong>de</strong> la secuencia <strong>de</strong> contorno exploran la información <strong>de</strong>l contorno<br />

<strong>de</strong> la señal, pero no capturan información sobre el interior <strong>de</strong> la señal, los momentos<br />

geométricos invariantes complementan a los momentos <strong>de</strong> la secuencia <strong>de</strong> contorno.<br />

Los momentos geométricos invariantes se usan para el reconocimiento <strong>de</strong> patrones <strong>de</strong><br />

imágenes en 2-D. Hu [48] <strong>de</strong>scribe un conjunto <strong>de</strong> 7 funciones que hacen uso <strong>de</strong> los<br />

momentos centrales <strong>de</strong> una imagen, cuyo resultado es in<strong>de</strong>pendiente a la rotación,<br />

traslación y cambio <strong>de</strong> escala. El momento regular <strong>de</strong> or<strong>de</strong>n p + q para una función<br />

bidimensional continua está dado por:<br />

m pq =<br />

∫ +∝ ∫ +∝<br />

−∝<br />

−∝<br />

x p y q f(x, y) dx dy (6.40)<br />

para p, q = 0, 1, 2, 3, 4, ....<br />

En el caso <strong>de</strong> una imagen digital representada por f(x,y) el momento regular m p,q<br />

está <strong>de</strong>finido por:<br />

74


m pq = ∑ x<br />

∑<br />

x p y q f(x, y) (6.41)<br />

y<br />

para p, q = 0, 1, 2, 3, 4, ....<br />

Los momentos centrales, invariantes a la traslación, se pue<strong>de</strong>n expresar como:<br />

don<strong>de</strong>:<br />

µ pq = ∑ x<br />

∑<br />

(x − x) p (y − y) q f(x, y) (6.42)<br />

y<br />

x = m 10<br />

m 00<br />

(6.43)<br />

y = m 01<br />

m 00<br />

(6.44)<br />

Siendo (x, y) el centroi<strong>de</strong> y m 00 el área <strong>de</strong> la imagen. Los momentos centrales son<br />

calculados usando el centroi<strong>de</strong>, y es equivalente a mover la imagen a su centroi<strong>de</strong>, este<br />

cambio precisamente lo hace invariante a la traslación.<br />

Los momentos centrales <strong>de</strong> hasta or<strong>de</strong>n 3 se pue<strong>de</strong>n calcular como:<br />

µ 00 = m 00 (6.45)<br />

µ 01 = 0; (6.46)<br />

µ 02 = m 02 − ym 01 (6.47)<br />

µ 03 = m 03 − 3ym 02 + 2y 2 m 01 (6.48)<br />

µ 10 = 0; (6.49)<br />

µ 11 = m 11 − ym 10 (6.50)<br />

µ 12 = m 12 − 2ym 11 − xm 02 + 2y 2 m 10 (6.51)<br />

µ 20 = m 20 − xm 10 (6.52)<br />

µ 21 = m 21 − 2xm 11 − ym 20 + 2x 2 m 01 (6.53)<br />

µ 30 = m 30 − 3xm 20 + 2x 2 m 10 (6.54)<br />

Los siguientes momentos centrales normalizados son invariantes al cambio <strong>de</strong><br />

escala:<br />

dón<strong>de</strong><br />

η pq =<br />

µ pq<br />

(m 00 ) γ (6.55)<br />

γ = p + q<br />

2<br />

+ 1 (6.56)<br />

75


Estos son usados para calcular los 4 primeros momentos invariantes a la rotación:<br />

φ 1 = η 20 + η 02 (6.57)<br />

φ 2 = (η 20 − η 02 ) 2 + 4(η 11 ) 2 (6.58)<br />

φ 3 = (η 30 − 3η 12 ) 2 + (3η 21 − η 03 ) 2 (6.59)<br />

φ 4 = (η 30 + η 12 ) 2 + (η 12 + η 03 ) 2 (6.60)<br />

6.1.7. Resumen <strong>de</strong> características<br />

En el cuadro 6.2 se presenta el resumen <strong>de</strong> las características extraídas <strong>de</strong>s<strong>de</strong> cada<br />

señal. Se extraen 7 características <strong>de</strong> contraste, 7 características <strong>de</strong> contraste <strong>de</strong>l fondo,<br />

3 características <strong>de</strong> contraste relativo, 20 características <strong>de</strong> forma, 6 características<br />

relacionadas a los momentos <strong>de</strong> la secuencia <strong>de</strong> contorno y los 4 primeros momentos<br />

invariantes <strong>de</strong> Hu. En total son 47 características.<br />

Cuadro 6.2: Resumen <strong>de</strong> características extraídas <strong>de</strong>s<strong>de</strong> las señales.<br />

Contraste <strong>de</strong> la señal<br />

1 nivel gris máximo<br />

2 nivel gris mínimo<br />

3 mediana <strong>de</strong>l nivel gris<br />

4 nivel promedio <strong>de</strong> gris<br />

5 <strong>de</strong>sviación estándar <strong>de</strong>l nivel <strong>de</strong> gris<br />

6 asimetría <strong>de</strong>l nivel <strong>de</strong> gris (skewness)<br />

7 kurtosis <strong>de</strong>l nivel <strong>de</strong> gris<br />

Contraste <strong>de</strong>l fondo<br />

1 nivel gris máximo <strong>de</strong>l fondo<br />

2 nivel gris mínimo <strong>de</strong>l fondo<br />

3 mediana <strong>de</strong>l nivel gris <strong>de</strong>l fondo<br />

4 nivel promedio <strong>de</strong> gris <strong>de</strong>l fondo<br />

5 <strong>de</strong>sviación estándar <strong>de</strong>l nivel <strong>de</strong> gris <strong>de</strong>l fondo<br />

6 asimetría <strong>de</strong>l nivel <strong>de</strong> gris <strong>de</strong>l fondo (Skewness)<br />

7 kurtosis <strong>de</strong>l nivel <strong>de</strong> gris <strong>de</strong>l fondo<br />

Contraste relativo<br />

1 contraste absoluto<br />

2 contraste relativo<br />

3 contraste proporcional<br />

Características <strong>de</strong> forma<br />

1 área<br />

2 área convexa<br />

76


3 área <strong>de</strong>l fondo<br />

4 perímetro <strong>de</strong>l bor<strong>de</strong><br />

5 diámetro máximo<br />

6 diámetro mínimo<br />

7 diámetro circular equivalente<br />

8 longitud <strong>de</strong> fibra<br />

9 ancho <strong>de</strong> fibra<br />

10 enrollamiento (curl)<br />

11 factor <strong>de</strong> forma (circularidad)<br />

12 redon<strong>de</strong>z<br />

13 elongación 1 (excentricidad)<br />

14 elongación 2<br />

15 excentricidad<br />

16 relación <strong>de</strong> aspecto<br />

17 compacidad 1<br />

18 compacidad 2<br />

19 compacidad 3<br />

20 soli<strong>de</strong>z<br />

Momentos <strong>de</strong> la secuencia <strong>de</strong>l contorno<br />

1 MSC 1<br />

2 MSC 2<br />

3 MSC 3<br />

4 MSC 4<br />

5 promedio <strong>de</strong> radios<br />

6 <strong>de</strong>sviación estándar <strong>de</strong> radios<br />

Momentos geométricos invariantes<br />

1 momento invariante I<br />

2 momento invariante II<br />

3 momento invariante III<br />

4 momento invariante IV<br />

77


6.2. Selección <strong>de</strong> características<br />

El objetivo <strong>de</strong> un procedimiento <strong>de</strong> selección <strong>de</strong> características es encontrar un<br />

subconjunto <strong>de</strong> características Sm ′ <strong>de</strong>l conjunto inicial <strong>de</strong> características Sm con la<br />

restricción <strong>de</strong> que logren minimizar el error <strong>de</strong> un clasificador, dado que se trata <strong>de</strong><br />

reducir la dimensionalidad <strong>de</strong> los patrones <strong>de</strong> entrada Sm. Para que Sm ′ sea representativo<br />

se <strong>de</strong>be <strong>de</strong> construir eliminando las variables redundantes o las que no aportan<br />

suficiente información al clasificador.<br />

Con este objetivo se aplican dos procedimientos, un análisis <strong>de</strong> la matriz <strong>de</strong> correlación<br />

y un algoritmo <strong>de</strong> selección <strong>de</strong> características. El primero intenta buscar pares<br />

<strong>de</strong> características altamente correlacionadas y eliminar uno <strong>de</strong> cada par. El segundo<br />

intenta probar que un subconjunto <strong>de</strong> características pue<strong>de</strong> minimizar el error <strong>de</strong> un<br />

clasificador.<br />

6.2.1. Correlación entre características<br />

Si dos características evolucionan <strong>de</strong> modo tal que en alguna medida se relacionan<br />

entre ellas, po<strong>de</strong>mos <strong>de</strong>cir que existe una asociación entre ellas. La asociación entre las<br />

características no significa que una <strong>de</strong> ellas <strong>de</strong>penda causalmente <strong>de</strong> la otra, pue<strong>de</strong> ser<br />

una pura coinci<strong>de</strong>ncia. Una forma <strong>de</strong> expresar la asociación entre dos características<br />

es la correlación <strong>de</strong>l momento-producto o correlación <strong>de</strong> Pearson. Si el coeficiente <strong>de</strong><br />

correlación es bajo (entre -0.3 y +0.3) las dos características no están asociadas entre<br />

sí. Si es alto (cercano a +1 o a -1) significa que la relación entre ellas se aproxima a<br />

la ecuación y = Ax + B. El signo <strong>de</strong>l coeficiente <strong>de</strong> correlación no es importante (es el<br />

signo <strong>de</strong> A). Un aspecto débil <strong>de</strong>l análisis <strong>de</strong> correlación es que no pue<strong>de</strong> <strong>de</strong>tectar otras<br />

relaciones no lineales entre las características, por ejemplo y = Ax 2 + Bx + C pasaría<br />

inadvertida. Luego <strong>de</strong> <strong>de</strong>tectar que la correlación entre dos características es bastante<br />

alta se proce<strong>de</strong> a eliminar una <strong>de</strong> ellas.<br />

6.2.2. Selección <strong>de</strong> características<br />

El objetivo <strong>de</strong> esta etapa es seleccionar un subconjunto Sm ′ <strong>de</strong> características<br />

<strong>de</strong>s<strong>de</strong> el conjunto <strong>de</strong> inicial <strong>de</strong> características extraídas Sm, bajo el criterio <strong>de</strong> minimizar<br />

el error <strong>de</strong>l clasificador (ver la figura 6.13). El procedimiento <strong>de</strong> extracción <strong>de</strong><br />

características permite obtener un conjunto <strong>de</strong> características potencialmente representativas<br />

<strong>de</strong> cada señal, pero no se pue<strong>de</strong> conocer a priori qué subconjunto <strong>de</strong> ellas<br />

permiten minimizar el error <strong>de</strong> un clasificador.<br />

Existen dos formas <strong>de</strong> resolver el problema, mediante algoritmos <strong>de</strong> búsqueda<br />

óptima que exploran el universo <strong>de</strong> todas las posibles combinaciones con gran esfuerzo<br />

computacional y mediante algoritmos <strong>de</strong> búsqueda subóptima que exploran algunas<br />

soluciones pero con un menor esfuerzo computacional:<br />

78


Figura 6.13: Selección <strong>de</strong> características.<br />

1. Algoritmos <strong>de</strong> búsqueda óptima.<br />

Entregan una solución óptima, evaluando todo el espacio <strong>de</strong> posibles combinaciones,<br />

pero a costo <strong>de</strong> un gran esfuerzo computacional. Si n es la cantidad <strong>de</strong><br />

características i<strong>de</strong>ntificadas y m es la cantidad <strong>de</strong> características <strong>de</strong>seadas, el<br />

número total <strong>de</strong> posibles subconjuntos a evaluar es:<br />

∑<br />

( n<br />

m<br />

m<br />

)<br />

= ∑ m<br />

n!<br />

m!(n − m)!<br />

(6.61)<br />

Este número crece exponencialmente, haciendo casi imposible una búsqueda exhaustiva.<br />

Para calcular el tiempo total este número <strong>de</strong>be <strong>de</strong> multiplicar por el<br />

tiempo que toma cada mo<strong>de</strong>lo en apren<strong>de</strong>r.<br />

Por otro lado para un número fijo <strong>de</strong> muestras, aparece el efecto conocido como<br />

la maldición <strong>de</strong> la dimensionalidad (ver la figura 6.14), en don<strong>de</strong> el error <strong>de</strong>l<br />

clasificador se reduce al agregar nuevas características hasta lograr un mínimo,<br />

pero luego eventualmente el error se pue<strong>de</strong> incrementar (Hoekstra [47]).<br />

Figura 6.14: Maldición <strong>de</strong> la dimensionalidad.<br />

79


2. Algoritmos <strong>de</strong> búsqueda subóptima.<br />

Entrega una solución subóptima, que no necesariamente es la mejor pero a un<br />

menor costo computacional. Existe una serie <strong>de</strong> algoritmos que proporcionan un<br />

buen resultado, entre ellos tenemos:<br />

a) Búsqueda secuencial hacia a<strong>de</strong>lante.<br />

Parte <strong>de</strong> un conjunto vacío <strong>de</strong> características y en cada iteración aña<strong>de</strong> una<br />

nueva característica (la mejor). El algoritmo hace una búsqueda entre las n<br />

características originales. La característica adicionada en cada iteración es<br />

aquella que cuando se consi<strong>de</strong>ra reduce el error <strong>de</strong>l clasificador.<br />

El algoritmo ejecuta: n + (n − 1) + (n − 2) + ... + (n − m − 1) = n(n + 1)/2 −<br />

m(m + 1)/2) evaluaciones en total.<br />

b) Búsqueda secuencial hacia atrás.<br />

Parte <strong>de</strong> un conjunto formado por todas las características disponibles y en<br />

cada iteración elimina una característica (la peor). El algoritmo parte con<br />

una lista que contiene todas la características. En cada iteración elimina<br />

aquella que cuando no se consi<strong>de</strong>ra reduce el error <strong>de</strong>l clasificador.<br />

El algoritmo ejecuta el mismo número <strong>de</strong> evaluaciones que en la búsqueda<br />

secuencial hacia a<strong>de</strong>lante<br />

Otra clasificación <strong>de</strong> los algoritmos <strong>de</strong> selección es la siguiente:<br />

1. De abajo hacia arriba.<br />

Parten <strong>de</strong> un conjunto vacío <strong>de</strong> variables para luego ir añadiendo nuevas variables.<br />

2. De arriba hacia abajo.<br />

Parten <strong>de</strong>l conjunto original <strong>de</strong> variables, para luego ir eliminando algunas variables.<br />

El algoritmo usado en esta investigación es una <strong>de</strong>rivación <strong>de</strong>l algoritmo <strong>de</strong> búsqueda<br />

secuencial hacia a<strong>de</strong>lante (Koller [52]), parte <strong>de</strong> un conjunto vacío <strong>de</strong> variables y<br />

usa como criterio <strong>de</strong> búsqueda la ganancia <strong>de</strong> información proporcionada por cada variable.<br />

Esta <strong>de</strong>rivación trata <strong>de</strong> evitar que el número <strong>de</strong> evaluaciones sea gran<strong>de</strong>, dado<br />

que cada evaluación implica entrenar un clasificador y luego probar su <strong>de</strong>sempeño (ver<br />

la subsección 8.4.6).<br />

Con este propósito, se calcula la ganancia <strong>de</strong> información <strong>de</strong> cada característica,<br />

para luego or<strong>de</strong>narlas <strong>de</strong> mayor a menor. El procedimiento <strong>de</strong> selección aña<strong>de</strong> una<br />

nueva característica al clasificador hasta que el error empiece a crecer. La ventaja <strong>de</strong><br />

este procedimiento es que se realiza a lo más n evaluaciones y el valor <strong>de</strong> m no es<br />

asignado a priori, dado que es entregado por el algoritmo.<br />

80


El flujograma <strong>de</strong>l procedimiento usado se presenta en la figura 6.15. Se aplican 3<br />

procedimientos, discretización <strong>de</strong> datos, cálculo <strong>de</strong> la ganancia <strong>de</strong> información y búsqueda<br />

secuencial hacia a<strong>de</strong>lante. Los procedimientos <strong>de</strong> normalización y clasificación se<br />

<strong>de</strong>tallan en la sección 6.3.<br />

Tiene como entradas la lista <strong>de</strong> características <strong>de</strong> cada señal (Sm) extraídas en<br />

la etapa anterior y la clase a la que pertenecen (clase). Se obtiene como resultado un<br />

subconjunto <strong>de</strong> características (Sm ′ ). Tiene un parámetro, el número <strong>de</strong> intervalos a<br />

discretizar (intervalos).<br />

Figura 6.15: Diagrama <strong>de</strong> flujo. Selección <strong>de</strong> características.<br />

El procedimiento <strong>de</strong> discretización convierte los datos continuos <strong>de</strong> (Sm) en datos<br />

discretos (Sd) con la finalidad <strong>de</strong> calcular la ganancia <strong>de</strong> información <strong>de</strong> cada característica.<br />

Estas luego son or<strong>de</strong>nadas en función a la ganancia <strong>de</strong> información calculada,<br />

obteniéndose (Si). Por otro lado las características son normalizadas antes <strong>de</strong> ser ingresadas<br />

al clasificador. El procedimiento <strong>de</strong> búsqueda secuencial hacia a<strong>de</strong>lante hace uso<br />

intensivo <strong>de</strong>l clasificador intentando i<strong>de</strong>ntificar el subconjunto Sm ′ <strong>de</strong> características<br />

que minimicen el error <strong>de</strong>l clasificador.<br />

Esta etapa es ejecutada con datos <strong>de</strong> prueba, don<strong>de</strong> se conoce a priori la clase a<br />

la que pertenece cada señal (ver la subsección 8.4.6), a continuación se <strong>de</strong>talla cada<br />

procedimiento.<br />

6.2.3. Discretización<br />

Para calcular la ganancia <strong>de</strong> información, es necesario trabajar con variables discretas,<br />

ninguna <strong>de</strong> las características extraídas Sm en la etapa anterior es una variable<br />

discreta. Un algoritmo <strong>de</strong> discretización permite dividir los valores <strong>de</strong> las variables en<br />

particiones <strong>de</strong> intervalos discretos. Las técnicas <strong>de</strong> discretización se clasifican en:<br />

81


1. Supervisadas y no supervisadas. Las primeras usan la información <strong>de</strong> la clase a<br />

la que pertenece cada variable, las segundas intentan i<strong>de</strong>ntificar la clase a la que<br />

pertenecen <strong>de</strong>s<strong>de</strong> los datos proporcionados.<br />

2. Globales y locales. Los primeros intentan discretizar todos los rangos <strong>de</strong> la variable,<br />

los segundos intentan hacerlo por rangos.<br />

Existen diversas técnicas <strong>de</strong> discretización, entre las que tenemos:<br />

1. Intervalos <strong>de</strong> igual anchura. Permite dividir los datos en k intervalos <strong>de</strong> igual<br />

anchura. La técnica es no supervisada, el valor apropiado <strong>de</strong> k se <strong>de</strong>be <strong>de</strong> calcular<br />

por experimentación y es muy sensible a los valores extremos.<br />

2. Intervalos <strong>de</strong> igual frecuencia. Se divi<strong>de</strong>n los datos en intervalos <strong>de</strong> igual frecuencia.<br />

El método es no supervisado.<br />

3. Particiones <strong>de</strong> mínima entropía. Intenta i<strong>de</strong>ntificar el mejor umbral para dividir<br />

los datos en intervalos <strong>de</strong> tal forma que la entropía <strong>de</strong> cada uno sea la menor<br />

posible<br />

En esta investigación se trabaja con una técnica no supervisada y global, buscando<br />

intervalos <strong>de</strong> igual anchura (ver la figura 6.16). El procedimiento usado es el siguiente:<br />

Pseudocódigo 6.1:<br />

Procedure: Sd = discretización(Sm, intervalos)<br />

1. <strong>de</strong>s<strong>de</strong> i = 1 hasta tamaño(Sm)<br />

2. data = Sm[i]<br />

3. Max = max(data)<br />

4. Min = min(data)<br />

5. paso = (Max - Min)/intervalos<br />

6. <strong>de</strong>s<strong>de</strong> j = 1 hasta tamaño(data)<br />

7. discreto[j] = entero(data[j] / paso)<br />

8. fin <strong>de</strong>s<strong>de</strong><br />

9. Sd[i] = discreto<br />

10. fin <strong>de</strong>s<strong>de</strong><br />

Se reciben como entradas las características obtenidas <strong>de</strong>s<strong>de</strong> <strong>de</strong> cada señal (Sm).<br />

Se obtienen como resultado las características discretizadas en intervalos (Sd). Tiene<br />

un parámetro, el número <strong>de</strong> intervalos en que se divi<strong>de</strong> el rango <strong>de</strong> valores (intervalos).<br />

Primero, genera un ciclo para procesar cada una <strong>de</strong> las características.<br />

Segundo, se obtiene los datos <strong>de</strong> cada característica data y se calcula el mayor<br />

y el menor valor, para luego calcular el tamaño <strong>de</strong> cada intervalo paso, dividiendo la<br />

82


diferencia <strong>de</strong>l valor máximo y mínimo entre el número <strong>de</strong> intervalos. El número <strong>de</strong><br />

intervalos usados para todas las variables es 10.<br />

Tercero, para cada uno <strong>de</strong> los elementos <strong>de</strong> data, se calcula el intervalo al cual<br />

pertenece, asignando a su respectiva posición en discreto (ver la figura 6.16).<br />

Cuarto, asigna los valores calculados en discreto a Sd.<br />

Figura 6.16: Ejemplo <strong>de</strong> discretización <strong>de</strong> valores.<br />

6.2.4. Ganancia <strong>de</strong> información<br />

Este procedimiento intenta aprovechar el concepto <strong>de</strong> ganancia <strong>de</strong> información<br />

usado en la construcción <strong>de</strong> árboles <strong>de</strong> <strong>de</strong>cisión para <strong>de</strong>terminar qué características<br />

extraídas <strong>de</strong>s<strong>de</strong> las señales tienen la mayor ganancia <strong>de</strong> información individual para<br />

pre<strong>de</strong>cir la clase a la que pertenece (Kozlov [53]). Se calcula la ganancia <strong>de</strong> información<br />

<strong>de</strong> cada característica por separado y luego se les or<strong>de</strong>na <strong>de</strong> mayor a menor. La ganancia<br />

<strong>de</strong> información se pue<strong>de</strong> calcular <strong>de</strong>s<strong>de</strong> la entropía.<br />

1. Entropía.<br />

La entropía mi<strong>de</strong> el grado <strong>de</strong> incertidumbre asociado a una distribución <strong>de</strong> probabilidad.<br />

En una distribución uniforme, todos los valores son igualmente probables<br />

p i = 1 y por tanto la entropía es máxima, lo cual indica máxima incertidumbre o<br />

N<br />

mínima información. Por el contrario, en una distribución con un solo pico en la<br />

que p i = 1 y p j = 0, para todo j ≠ i la entropía es mínima lo cual indica mínima<br />

incertidumbre o máxima información (ver la figura 6.17)<br />

Figura 6.17: Cálculo <strong>de</strong> la entropía.<br />

Para calcular la entropía <strong>de</strong> una variable discreta (S) se usa la siguiente fórmula.<br />

83


E(S) = ∑ i∈C<br />

−p i log 2 p i (6.62)<br />

Don<strong>de</strong> S es un conjunto que se pue<strong>de</strong> dividir en |C| clases, p i es la proporción <strong>de</strong><br />

ocurrencias <strong>de</strong> la clase i en el conjunto S, <strong>de</strong> la siguiente forma:<br />

p i = |S i|<br />

|S|<br />

(6.63)<br />

En esta investigación se presentan dos casos:<br />

a) S correspon<strong>de</strong> al conjunto <strong>de</strong> clase (las clases a las que pue<strong>de</strong> pertenecer<br />

cada señal) y |C| correspon<strong>de</strong> a sus dos posibles valores (es calcificación o<br />

no es calcificación).<br />

b) S correspon<strong>de</strong> a cada una <strong>de</strong> las características discretizadas Sd y |C| correspon<strong>de</strong><br />

a cada unos <strong>de</strong> los intervalos obtenidos.<br />

La correspon<strong>de</strong>ncia <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l momento en que se aplica la fórmula.<br />

2. Ganancia <strong>de</strong> información.<br />

La ganancia <strong>de</strong> información se usa frecuentemente para construir árboles <strong>de</strong> <strong>de</strong>cisión,<br />

permite <strong>de</strong>cidir qué característica A adicionar al árbol actual. Es una medida<br />

<strong>de</strong> cuánto ayuda el conocer el valor <strong>de</strong> cierta característica para conocer el<br />

verda<strong>de</strong>ro valor <strong>de</strong> la clase a la que pertenece la señal asociada. Una ganancia <strong>de</strong><br />

información alta implica que una característica permite reducir la incertidumbre<br />

<strong>de</strong> la clase a la que pertenece la señal.<br />

La ganancia <strong>de</strong> información se pue<strong>de</strong> calcular restando a la entropía global, la<br />

media pon<strong>de</strong>rada <strong>de</strong> las entropías asociadas a los valores que pue<strong>de</strong> tomar una<br />

característica. Para calcular la ganancia asociada a cada característica A, se usa<br />

la siguiente fórmula:<br />

ganancia(S, A) = entropía(S) −<br />

∑<br />

v∈valores(A)<br />

|S v |<br />

|S| entropía(S v) (6.64)<br />

Don<strong>de</strong> S v , es un subconjunto <strong>de</strong> S, don<strong>de</strong> la característica A toma el valor <strong>de</strong> v<br />

(ver la figura 6.18).<br />

84


Figura 6.18: Ganancia <strong>de</strong> información. a). conjunto global (3 valores). b). atributo (4<br />

valores)<br />

El procedimiento usado es el siguiente:<br />

Pseudocódigo 6.2:<br />

Procedure: Si = ganancia información(Sd, clase)<br />

1. E S = 0 ; entropía <strong>de</strong> la clase<br />

2. E SA = 0 ; media pon<strong>de</strong>rada <strong>de</strong> la entropía<br />

3. <strong>de</strong>s<strong>de</strong> i = 1 hasta clases(clase)<br />

4. p i = tamaño(clase(i)/tamaño(clase)<br />

5. E S = E S - p i log 2 (p i )<br />

6. fin <strong>de</strong>s<strong>de</strong><br />

7. <strong>de</strong>s<strong>de</strong> i = 1 hasta tamaño(Sd)<br />

8. A = Sd[i]<br />

9. <strong>de</strong>s<strong>de</strong> v = 1 hasta clases(A)<br />

10. E v = 0<br />

11. <strong>de</strong>s<strong>de</strong> c = 1 hasta clases(clase)<br />

12. p i = tamaño(A(v,c))/tamaño(A(c))<br />

13. E v = E v - p i log 2 (p i )<br />

14. fin <strong>de</strong>s<strong>de</strong><br />

15. E SA = E SA + (tamaño(clase(v))/tamaño(clase)) E v<br />

16. fin <strong>de</strong>s<strong>de</strong><br />

17. ganancia[i] = E S - E SA<br />

18. fin <strong>de</strong>s<strong>de</strong><br />

19. Si = or<strong>de</strong>nar(Sd, ganancia)<br />

El procedimiento recibe como entradas los valores discretizados <strong>de</strong> cada característica<br />

(Sd). Se obtiene como resultado la lista <strong>de</strong> características or<strong>de</strong>nadas en función<br />

a su ganancia <strong>de</strong> información (Si). Tiene un parámetro, la clase a la que pertenece cada<br />

señal (clase).<br />

85


Primero, se calcula la entropía global E S , en este caso <strong>de</strong> clase, para esto se<br />

consi<strong>de</strong>ra el número <strong>de</strong> elementos <strong>de</strong> clase, [es calcificación, no es calcificación].<br />

Segundo, genera un ciclo para consi<strong>de</strong>rar cada característica.<br />

Tercero, por cada característica calcula las entropías asociadas a los valores <strong>de</strong><br />

cada características (E v ).<br />

Cuarto, por cada característica calcula la media pon<strong>de</strong>rada <strong>de</strong> las entropías E SA .<br />

Quinto, por cada característica calcula la ganancia <strong>de</strong> información, restando la<br />

media pon<strong>de</strong>rada <strong>de</strong> las entropías E SA <strong>de</strong> la entropía global S S .<br />

Finalmente, luego <strong>de</strong> obtener todas las ganancias <strong>de</strong> información, se les or<strong>de</strong>na <strong>de</strong><br />

mayor a menor entregando el or<strong>de</strong>n correspondiente a cada característica.<br />

6.2.5. Derivación <strong>de</strong> la búsqueda secuencial hacia a<strong>de</strong>lante<br />

Este procedimiento realiza una búsqueda en la lista <strong>de</strong> características Si y preten<strong>de</strong><br />

<strong>de</strong>terminar el subconjunto que minimice el error <strong>de</strong> un clasificador, una técnica<br />

semejante fue usada por Kozlov [53]. La primera característica <strong>de</strong> la lista proporciona<br />

cierto grado <strong>de</strong> error, pero al añadir la siguiente característica este error se reduce. Este<br />

procedimiento se seguirá hasta que al añadir una nueva característica el error empieza a<br />

crecer, en este momento se <strong>de</strong>tiene el procedimiento, entregando la lista <strong>de</strong> características<br />

que minimizan el error. El clasificador utilizado es una red neuronal <strong>de</strong> 3 capas (ver<br />

la sección 6.3). Dado que el error <strong>de</strong>l clasificador es una variable aleatoria, el estimador<br />

usado para calcularlo es el promedio <strong>de</strong> los errores calculados (ver la subsección 6.3.4)<br />

El procedimiento usado es el siguiente:<br />

Pseudocódigo 6.3:<br />

Procedure: Sm’ = busqueda secuencial(Si, clase)<br />

1. error mínimo = número gran<strong>de</strong>()<br />

2. n = 0<br />

3. <strong>de</strong>s<strong>de</strong> i = 1 hasta tamaño(Si)<br />

4. [data entrena, data prueba] = divi<strong>de</strong>(Si[i], 0.5)<br />

5. [clase entrena, clase prueba] = divi<strong>de</strong>(clase, 0.5)<br />

6. pesos red = entrena red neuronal(data entrena,clase entrena)<br />

7. clase calculada = simula(pesos red, data prueba)<br />

8. error = compara (clase prueba, clase calculada)<br />

9. si error < error mínimo entonces<br />

10. error mínimo = error<br />

11. n = n + 1<br />

12. Sm’[n] = Sm[i]<br />

13. fin si<br />

14. fin <strong>de</strong>s<strong>de</strong><br />

86


El procedimiento recibe como entradas la lista or<strong>de</strong>nada <strong>de</strong> características (Si).<br />

Se obtiene como resultado el subconjunto <strong>de</strong> características que minimizan el error <strong>de</strong>l<br />

clasificador (Sm ′ ). Tiene un parámetro, la clase a la que pertenece cada señal (clase).<br />

Primero, se genera un ciclo para consi<strong>de</strong>rar cada característica.<br />

Segundo, por cada característica genera datos <strong>de</strong> prueba y <strong>de</strong> entrenamiento, dividiendo<br />

Si y clase en dos subconjuntos <strong>de</strong> igual tamaño, data entrena, data prueba,<br />

clase entrena y clase prueba respectivamente.<br />

Tercero, se entrena un clasificador con los datos <strong>de</strong> prueba, obteniendo los pesos<br />

<strong>de</strong> la red, el clasificador usado es una red neuronal (ver la sección 6.3).<br />

Cuarto, se realiza una simulación para estimar la clase a la que pertenece cada<br />

una <strong>de</strong> los señales <strong>de</strong>l grupo <strong>de</strong> prueba, obteniéndose clase calculada<br />

Quinto, se calcula el error comparando clase prueba con clase calculada, si el<br />

error es menor que el error anterior, se adiciona la característica actual S m [i] a la lista<br />

<strong>de</strong> características que minimizan el error <strong>de</strong>l clasificador.<br />

Un ejemplo <strong>de</strong> los resultados obtenidos por el algoritmo se presentan en la figura<br />

6.19, las 12 primeras características más significativas or<strong>de</strong>nadas secuencialmente<br />

permite incrementar la eficacia <strong>de</strong>l clasificador.<br />

Figura 6.19: Ejemplo <strong>de</strong> las mejores características seleccionadas.<br />

87


6.3. Diseño <strong>de</strong>l clasificador<br />

Un clasificador es un algoritmo que preten<strong>de</strong> asignar un objeto a una clase <strong>de</strong>terminada<br />

en función <strong>de</strong> los atributos (características) que se le pue<strong>de</strong> extraer. En la<br />

clasificación <strong>de</strong> patrones existen dos aproximaciones bien diferenciadas, la clasificación<br />

supervisada y la clasificación no supervisada (ver la figura 6.20):<br />

Figura 6.20: Tipos <strong>de</strong> clasificadores.<br />

1. Clasificación supervisada. Para cada patrón <strong>de</strong> datos es necesario el conocimiento<br />

previo <strong>de</strong> la clase a la que pertenece. El clasificador recibe un patrón <strong>de</strong> entrada<br />

y un patrón <strong>de</strong> salida.<br />

2. Clasificación no supervisada. No es necesario el conocimiento previo <strong>de</strong> la clase<br />

a la que pertenece cada patrón <strong>de</strong> datos. El clasificador recibe los patrones <strong>de</strong><br />

entrada y la red apren<strong>de</strong>.<br />

Dos problemas se presentan en el proceso <strong>de</strong> clasificación:<br />

1. Qué atributos (características) <strong>de</strong>l objeto usar para clasificarlo.<br />

2. Qué algoritmo es el más a<strong>de</strong>cuado para este problema en particular.<br />

El primer problema es resuelto en la etapa <strong>de</strong> selección <strong>de</strong> características (ver<br />

la sección 6.2). El segundo problema se preten<strong>de</strong> resolver usando una red neuronal<br />

<strong>de</strong> retropropagación, en esta investigación no se preten<strong>de</strong> comparar resultados usando<br />

diferentes clasificadores.<br />

88


Se usa un clasificador supervisado, los datos <strong>de</strong> entrada son las características<br />

extraídas y seleccionadas <strong>de</strong> cada señal (Sm ′ ) y los datos <strong>de</strong> salida correspon<strong>de</strong>n a la<br />

clase a la que pertenece cada señal clase. El clasificador elegido es una red neuronal<br />

(Hayken [45]) <strong>de</strong> tres capas con conexión hacia a<strong>de</strong>lante usando un algoritmo <strong>de</strong> retropropagación.<br />

Los datos <strong>de</strong> entrada se normalizan en el rango [-1, 1] antes <strong>de</strong> ser ingresados al<br />

clasificador (ver la subsección 6.3.3), tanto en la etapa <strong>de</strong> entrenamiento como en la<br />

simulación. No es necesario normalizar los datos <strong>de</strong> salida, dado que correspon<strong>de</strong>n a<br />

sólo dos clases:<br />

{ }<br />

1 es microcalcificación<br />

clase =<br />

−1 no es microcalcificación<br />

6.3.1. Re<strong>de</strong>s neuronales artificiales<br />

(6.65)<br />

Las re<strong>de</strong>s neuronales artificiales han sido usadas en múltiples problemas <strong>de</strong> clasificación<br />

<strong>de</strong> patrones, don<strong>de</strong> se requiere apren<strong>de</strong>r <strong>de</strong> la experiencia, <strong>de</strong> generalizar casos<br />

o <strong>de</strong> abstraer características esenciales a partir <strong>de</strong> información irrelevante. La red<br />

está conformada por muchos elementos computacionales (nodos) no lineales que operan<br />

en paralelo. Los nodos están conectados en capas mediante pesos que son adaptados<br />

en el proceso <strong>de</strong> entrenamiento.<br />

El algoritmo <strong>de</strong> retro-propagación es usado para entrenar los pesos <strong>de</strong> la red en dos<br />

fases, en la primera un patrón <strong>de</strong> entrenamiento es presentado propagándose a través<br />

<strong>de</strong> la red hasta la salida, don<strong>de</strong> se calcula el error (salida <strong>de</strong>seada vs. salida obtenida);<br />

en la segunda fase estos errores se trasmiten hacia atrás, hacia los nodos <strong>de</strong> la capa <strong>de</strong><br />

entrada, recibiendo cada nodo un porcentaje <strong>de</strong>l error. Basado en este error es que se<br />

ajustan los pesos <strong>de</strong> los nodos.<br />

6.3.2. Arquitectura <strong>de</strong> la red<br />

Una red neuronal <strong>de</strong> retropropagación <strong>de</strong> tres capas (ver la figura 6.21), es usada<br />

en esta investigación. La red neuronal tiene tantas entradas como características tiene<br />

cada señal, el número <strong>de</strong> características <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la etapa <strong>de</strong>l procedimiento general<br />

don<strong>de</strong> se utilice.<br />

Se tomo la <strong>de</strong>cisión <strong>de</strong> consi<strong>de</strong>rar sólo 3 capas, tomando como referencia el teorema<br />

<strong>de</strong> Kolmogorov (Kurkova [54]), que afirma: ”Dada cualquier función continua<br />

f : [0, 1] n → R m , f(x) = y, f pue<strong>de</strong> ser implementada exactamente por una red neuronal<br />

<strong>de</strong> tres capas sin retroalimentación que tiene una capa <strong>de</strong> entrada <strong>de</strong> n elementos<br />

que únicamente copian las entradas a la siguiente capa, (2n + 1) elementos <strong>de</strong> procesamiento<br />

en la capa intermedia, y m elementos <strong>de</strong> procesamiento en la capa <strong>de</strong> salida”.<br />

Esto implica que el número <strong>de</strong> neuronas <strong>de</strong> la capa intermedia <strong>de</strong>pen<strong>de</strong>rá <strong>de</strong> la capa <strong>de</strong><br />

89


Figura 6.21: Arquitectura <strong>de</strong> la red neuronal<br />

entrada. La capa <strong>de</strong> salida tiene una sola neurona que indica si la señal correspon<strong>de</strong><br />

o no a una calcificación. La función <strong>de</strong> transferencia usada en todos los nodos es la<br />

tangente hiperbólica sigmoidal y la función <strong>de</strong> medida <strong>de</strong>l error es el error cuadrático<br />

medio. Este mo<strong>de</strong>lo <strong>de</strong> clasificador será usado en todos los casos don<strong>de</strong> se requiera una<br />

etapa <strong>de</strong> clasificación (aprendizaje y simulación), lo que cambia son las características<br />

en la entrada y el número <strong>de</strong> neuronas <strong>de</strong> capa intermedia.<br />

6.3.3. Normalización <strong>de</strong> datos<br />

Dado que el rango <strong>de</strong> los datos utilizados por la red neuronal pue<strong>de</strong> tener valores<br />

proporcionalmente altos con respecto a los otros se hace necesario aplicar un proceso<br />

<strong>de</strong> normalización <strong>de</strong> datos en el rango [−1, 1]; no aplicar este procedimiento pue<strong>de</strong><br />

afectar el comportamiento <strong>de</strong>l clasificador. El procedimiento <strong>de</strong> normalización se <strong>de</strong>be<br />

<strong>de</strong> aplicar a los datos <strong>de</strong> entrada y <strong>de</strong> salida <strong>de</strong> la red. En este caso no fue necesario<br />

aplicar el procedimiento a los datos <strong>de</strong> la salida dado que sólo pue<strong>de</strong>n tomar dos valores<br />

[−1, +1].<br />

Existe dos métodos generalmente usados para la normalización <strong>de</strong> los datos:<br />

1. Escalamiento lineal simple.<br />

Los datos se escalan en el rango usado por las neuronas <strong>de</strong> la capa <strong>de</strong> entrada <strong>de</strong><br />

la red, generalmente en el rango <strong>de</strong> [-1, 1] o [0, 1]. El escalamiento linear requiere<br />

encontrar el valor mínimo y máximos <strong>de</strong> cada variable (Min y Max).<br />

La fórmula usada para convertir los datos originales D en datos normalizados N<br />

es:<br />

N = 1 − 2 Max − D<br />

Max − Min<br />

(6.66)<br />

2. Escalamiento estadístico.<br />

90


Figura 6.22: Normalización <strong>de</strong> datos al rango [-1, 1]<br />

Se utiliza una medida estadística <strong>de</strong> ten<strong>de</strong>ncia central y la varianza para eliminar<br />

los valores extremos y separar hacia afuera las distribución <strong>de</strong> los datos tendiendo<br />

a buscar una distribución uniforme. Se calcula la media (¯x)y la <strong>de</strong>sviación<br />

estándar(σ) <strong>de</strong> los datos <strong>de</strong> entrada, don<strong>de</strong> Min = ¯x − 2σ y Max = ¯x + 2σ.<br />

Todos los valores menores a Min se ponen en Min y todos los valores mayores<br />

que Max se ponen en Max, luego es aplicada la fórmula 6.66.<br />

En ambos casos un algoritmo <strong>de</strong> <strong>de</strong>normalización se requiere para convertir los<br />

datos normalizados a sus valores originales. En esta investigación se hace uso <strong>de</strong>l primer<br />

método y no es necesario un procedimiento <strong>de</strong> <strong>de</strong>normalización <strong>de</strong> datos.<br />

El procedimiento utilizados es el siguiente:<br />

Pseudocódigo 6.4:<br />

Procedure: [Sn, Max, Min]=normalización(Sm)<br />

1. <strong>de</strong>s<strong>de</strong> i = 1 hasta tamaño(Sm)<br />

2. característica = Sm[i]<br />

3. Min[i] = min(característica)<br />

4. Max[i] = max(característica)<br />

5. <strong>de</strong>s<strong>de</strong> j = 1 hasta tamaño(característica)<br />

6. normalizado[j] = 1 - 2(Max[i] - característica[j])/(Max[i] - Min[i])<br />

7. fin <strong>de</strong>s<strong>de</strong><br />

8. Sn[i] = normalizado<br />

9. fin <strong>de</strong>s<strong>de</strong><br />

El procedimiento recibe como entradas los datos <strong>de</strong> las características a normalizar<br />

(Sm). Se obtienen como resultado los datos normalizados (Sn), el valor máximo (Max)<br />

y el valor mínimo (Min) <strong>de</strong> cada característica.<br />

Primero, se genera un ciclo para consi<strong>de</strong>rar cada característica.<br />

Segundo, por cada característica se calcula el valor mínimo Min y el valor máximo<br />

Max.<br />

91


Tercero, se genera un nuevo ciclo para consi<strong>de</strong>rar cada valor <strong>de</strong> la característica,<br />

calculando su nuevo valor normalizado en el rango [−1, +1] (ver la figura 6.22).<br />

Cuarto, asigna los valores normalizados <strong>de</strong> la característica a la salida Sn.<br />

6.3.4. Estimador por validación cruzada <strong>de</strong> K-conjuntos<br />

Para estimar un indicador <strong>de</strong>l <strong>de</strong>sempeño <strong>de</strong> un clasificador o en su <strong>de</strong>fecto el error<br />

<strong>de</strong> un clasificador, se usa el estimador por validación cruzada <strong>de</strong> K conjuntos (Efron<br />

[25], Stone [81]), usado frecuentemente para probar esquemas <strong>de</strong> clasificación.<br />

Figura 6.23: Estimador por validación cruzada con K conjuntos<br />

El diseño consiste en armar K experimentos (ver la figura 6.23). En cada experimento<br />

las N muestras T <strong>de</strong> calcificaciones o <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones<br />

(según corresponda), se divi<strong>de</strong>n en K conjuntos disjuntos T 1 , T 2 , ....T K , <strong>de</strong> tamaño similar<br />

|T i | = |T | /K, don<strong>de</strong> i = 1, 2, ..., K<br />

Para todo k = 1, 2, ..., K, se construye un clasificador usando T −T k , como conjunto<br />

<strong>de</strong> aprendizaje. Sea D k el clasificador construido, don<strong>de</strong> ninguna <strong>de</strong> las muestras <strong>de</strong> T k<br />

se ha usado para construir D k .<br />

Al finalizar este paso se obtiene K clasificadores, D k , con sus correspondientes<br />

estimaciones <strong>de</strong>l <strong>de</strong>sempeño <strong>de</strong>l proceso E k .<br />

La estimación final <strong>de</strong>l <strong>de</strong>sempeño <strong>de</strong>l clasificador está dado por:<br />

E T = 1 ∑i=K<br />

E i (6.67)<br />

N<br />

92<br />

i=1


El inconveniente <strong>de</strong> este diseño es el gran esfuerzo computacional que requiere,<br />

dado que es necesario volver a correr el experimento K veces, con las N muestras, pero<br />

permite obtener una buena estimación <strong>de</strong>l <strong>de</strong>sempeño <strong>de</strong>l clasificador.<br />

6.4. Resumen<br />

La etapa <strong>de</strong> clasificación <strong>de</strong> señales en calcificaciones tiene como finalidad <strong>de</strong>sarrollar<br />

un procedimiento para <strong>de</strong>terminar si una señal i<strong>de</strong>ntificada correspon<strong>de</strong> o no<br />

a una calcificación. La clasificación se realiza extrayendo un conjunto <strong>de</strong> características<br />

<strong>de</strong>s<strong>de</strong> cada señal, se extraen 7 características <strong>de</strong> contraste, 7 <strong>de</strong> contraste <strong>de</strong>l fondo, 3<br />

<strong>de</strong> contraste relativo, 20 <strong>de</strong> forma, 6 <strong>de</strong> los momentos <strong>de</strong> la secuencia <strong>de</strong> contorno y 4<br />

<strong>de</strong> los momentos geométricos invariantes.<br />

Dado que no existe un criterio a priori para <strong>de</strong>terminar qué subconjunto <strong>de</strong> características<br />

permiten minimizar el error <strong>de</strong> un clasificador, dos etapas <strong>de</strong> selección <strong>de</strong><br />

características son implementadas. La primera usa el coeficiente <strong>de</strong> correlación para<br />

<strong>de</strong>terminar qué pares <strong>de</strong> características están relacionadas y eliminar una <strong>de</strong> cada par.<br />

La segunda usa una <strong>de</strong>rivación <strong>de</strong> la búsqueda secuencial hacia a<strong>de</strong>lante, para añadir<br />

una nueva característica a la lista <strong>de</strong> característica seleccionadas, hasta que el error <strong>de</strong>l<br />

clasificador empiece a incrementarse. Previamente las características fueron or<strong>de</strong>nadas<br />

en función a sus ganancias <strong>de</strong> información.<br />

Una red neuronal <strong>de</strong> retropropagación es usada como clasificador supervisado, la<br />

red en todos los casos tiene 3 capas, el número <strong>de</strong> neuronas <strong>de</strong> la capa <strong>de</strong> entrada<br />

<strong>de</strong>pen<strong>de</strong> <strong>de</strong> las características seleccionadas, el número <strong>de</strong> neuronas <strong>de</strong> la capa intermedia<br />

es calculada por experimentación y la capa <strong>de</strong> salida tiene una neurona. Los datos<br />

<strong>de</strong> entrada son normalizados mediante un escalamiento lineal simple para evitar que<br />

aquellas variables con rangos <strong>de</strong> valores muy amplios afecten el <strong>de</strong>sempeño <strong>de</strong>l clasificador.<br />

Para calcular el error <strong>de</strong>l clasificador se usa el estimador <strong>de</strong> validación cruzada<br />

<strong>de</strong> K-conjuntos, don<strong>de</strong> K es 10 conjuntos.<br />

93


Capítulo 7<br />

Detección <strong>de</strong> <strong>Agrupamientos</strong> <strong>de</strong> Calcificaciones y<br />

Extracción <strong>de</strong> Características<br />

Este etapa se diseña para <strong>de</strong>tectar agrupamientos <strong>de</strong> calcificaciones <strong>de</strong>s<strong>de</strong> las<br />

calcificaciones <strong>de</strong>tectadas en la etapa anterior. Si bien la BI-RADS (ver la subsección<br />

2.6.4) proporciona una <strong>de</strong>finición acerca <strong>de</strong> la distribución <strong>de</strong> los agrupamientos,<br />

no hace referencia a medidas, tales como la cantidad mínima o máxima <strong>de</strong> calcificaciones<br />

o el área mínima o máxima que ocupan estas calcificaciones. En la bibliografía se<br />

ha encontrado diversas <strong>de</strong>finiciones sobre la cantidad <strong>de</strong> calcificaciones que conforman<br />

un agrupamiento, así Gavrieli<strong>de</strong>s et al. [34], Salfity et al. [76] y Papadopoulosa [70]<br />

afirman que un agrupamiento es un grupo <strong>de</strong> 3 o más calcificaciones que ocupan 1 cm 2<br />

<strong>de</strong> área. Por otro lado, Songyang et al. [92] afirman que es un grupo <strong>de</strong> 2 o más. En<br />

este trabajo se toma en consi<strong>de</strong>ración la primera <strong>de</strong>finición.<br />

Dado que 1 cm 2 pue<strong>de</strong> ser ocupado por diferentes objetos con distribuciones irregulares,<br />

se consi<strong>de</strong>ra que el agrupamiento se pue<strong>de</strong> encontrar <strong>de</strong>ntro <strong>de</strong> un círculo que<br />

circunscribe un cuadro <strong>de</strong> 1 cm 2 (ver la figura 7.1), en este caso el radio es <strong>de</strong> 0.7 cm.<br />

Figura 7.1: Cálculo <strong>de</strong>l radio <strong>de</strong>l agrupamiento.<br />

Consi<strong>de</strong>rando un margen para incluir agrupamientos con distribuciones irregulares,<br />

en esta investigación se consi<strong>de</strong>ra que el radio <strong>de</strong>l círculo (radio agrupamiento)<br />

<strong>de</strong>ntro <strong>de</strong>l cual se pue<strong>de</strong> ubicar un agrupamiento es <strong>de</strong> 1 cm, esto implica que la mayor<br />

área que pue<strong>de</strong> ocupar un agrupamiento es <strong>de</strong> 3.14 cm 2 , situación que no pue<strong>de</strong> suce<strong>de</strong>r<br />

95


porque implicaría que las calcificaciones se ubiquen en el bor<strong>de</strong> <strong>de</strong>l círculo. Posiblemente<br />

las calcificaciones se ubiquen bastante cerca <strong>de</strong>l centroi<strong>de</strong> <strong>de</strong>l agrupamiento.<br />

Dado que la resolución <strong>de</strong> las imágenes utilizadas es <strong>de</strong> 200 µ/pixel (ver la subsección<br />

8.4.3), se necesitan a lo más 100 pixeles para cubrir el diámetro <strong>de</strong>l círculo si<br />

están en línea recta uno al lado <strong>de</strong>l otro y 100/ √ 2 ≈ 80 pixeles si están en línea recta<br />

pero alineados en su diagonal, por lo tanto máxima distancia es 100 pixeles.<br />

El procedimiento propuesto intenta buscar las regiones <strong>de</strong> la imagen don<strong>de</strong> se<br />

logre la mayor <strong>de</strong>nsidad <strong>de</strong> calcificaciones por cm 2 y es in<strong>de</strong>pendiente <strong>de</strong> la técnica <strong>de</strong><br />

<strong>de</strong>tección <strong>de</strong> calcificaciones, dado que como entrada recibe una lista <strong>de</strong> centroi<strong>de</strong>s <strong>de</strong><br />

los puntos que representan la calcificación. Esta lista se pue<strong>de</strong> obtener por una técnica<br />

diferente a la propuesta en esta investigación.<br />

Diferentes técnicas <strong>de</strong> agrupamiento <strong>de</strong> datos en espacios n-dimensionales se han<br />

<strong>de</strong>sarrollado a la fecha y se pue<strong>de</strong>n clasificar como métodos supervisados, cuando las<br />

clases o grupos se <strong>de</strong>finen a priori (número y vectores representativos) y como métodos<br />

no supervisados, cuando el clasificador elige el número <strong>de</strong> clases.<br />

El flujograma <strong>de</strong>l procedimiento usado se presenta en la figura 7.2. Se aplican tres<br />

procedimientos, <strong>de</strong>tección <strong>de</strong> agrupamientos, extracción <strong>de</strong> características y selección<br />

<strong>de</strong> características.<br />

Figura 7.2: Diagrama <strong>de</strong> flujo general. Etapa <strong>de</strong> <strong>de</strong>tección <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones.<br />

A esta etapa ingresan, la lista <strong>de</strong> puntos (P ) correspondientes a las calcificaciones<br />

obtenidas <strong>de</strong>l proceso <strong>de</strong> clasificación y se obtiene como resultado la lista <strong>de</strong> características<br />

(Sc ′ ) extraídas y seleccionadas <strong>de</strong>s<strong>de</strong> cada agrupamiento.<br />

El procedimiento tiene un parámetro, la distancia máxima (máxima distancia)<br />

entre los centroi<strong>de</strong>s <strong>de</strong> dos puntos para consi<strong>de</strong>rarlos <strong>de</strong>ntro <strong>de</strong> un agrupamiento.<br />

El procedimiento <strong>de</strong> <strong>de</strong>tección <strong>de</strong> agrupamientos intenta i<strong>de</strong>ntificar grupos <strong>de</strong> calcificaciones<br />

con alto grado <strong>de</strong> cercanía, en esta investigación el criterio usado para medir<br />

96


la cercanía es la <strong>de</strong>nsidad <strong>de</strong> puntos por cm 2 , es <strong>de</strong>cir mientras más puntos cercanos<br />

tiene cierta región más <strong>de</strong>nsidad <strong>de</strong> puntos tiene la región (ver la figura 7.5), siendo la<br />

región con mayor <strong>de</strong>nsidad <strong>de</strong> puntos una candidata a convertirse en un agrupamiento,<br />

en la siguiente pasada se vuelve a ejecutar el algoritmo pero consi<strong>de</strong>rando solo los puntos<br />

que quedan luego <strong>de</strong> eliminar los puntos <strong>de</strong>l agrupamiento encontrado. El algoritmo<br />

termina cuando no existan más puntos dón<strong>de</strong> buscar o estos se encuentran tan lejos<br />

que no pue<strong>de</strong>n conformar un agrupamiento.<br />

El procedimiento <strong>de</strong> extracción <strong>de</strong> características obtiene propieda<strong>de</strong>s <strong>de</strong>s<strong>de</strong> cada<br />

agrupamiento; éstas pue<strong>de</strong>n representar estadísticos obtenidos <strong>de</strong>l contraste <strong>de</strong> cada<br />

calcificación o <strong>de</strong> la topología <strong>de</strong>l agrupamiento.<br />

El procedimiento <strong>de</strong> selección <strong>de</strong> características, intenta escoger un subconjunto<br />

<strong>de</strong> ellas <strong>de</strong> tal manera que representen a<strong>de</strong>cuadamente al agrupamiento. Para esto se<br />

usa el procedimiento usado en la sección 6.2.<br />

7.1. Detección <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones<br />

Este procedimiento preten<strong>de</strong> i<strong>de</strong>ntificar grupos <strong>de</strong> calcificaciones <strong>de</strong>ntro <strong>de</strong> regiones,<br />

<strong>de</strong>limitadas por una circunferencia <strong>de</strong> radio máximo radio agrupamiento, el<br />

flujograma <strong>de</strong>l procedimiento es el siguiente:<br />

Figura 7.3: Diagrama <strong>de</strong> flujo. Detección <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones.<br />

97


La restricción más importante <strong>de</strong>l procedimiento propuesto, es que la distancia<br />

máxima entre dos calcificaciones <strong>de</strong> un agrupamiento no pue<strong>de</strong> ser más <strong>de</strong> 100 pixeles.<br />

Tiene como entrada la lista <strong>de</strong> centroi<strong>de</strong>s <strong>de</strong> cada calcificación (P ). Se obtiene como<br />

salida la lista <strong>de</strong> agrupamientos (C), cada agrupamiento <strong>de</strong>tectado contiene la lista<br />

<strong>de</strong> calcificaciónes que la conforman. Tiene un parámetro, la distancia máxima <strong>de</strong>ntro<br />

<strong>de</strong> la cual se pue<strong>de</strong> consi<strong>de</strong>rar que un punto es vecino <strong>de</strong> otro (máxima distancia).<br />

Primero, se obtiene una copia temporal <strong>de</strong> los puntos P , dado que en el algoritmo<br />

es modificado, luego se calcula la distancia euclidiana L entre todos los posibles pares<br />

<strong>de</strong> puntos (bor<strong>de</strong>s) que se pue<strong>de</strong>n formar. Para n puntos se pue<strong>de</strong> generar la siguiente<br />

cantidad <strong>de</strong> pares (esta cantidad es polinómica con respecto a n):<br />

n(n − 1)<br />

pares(n) = (7.1)<br />

2<br />

Segundo, se eliminan los bor<strong>de</strong>s cuya distancia euclidiana es mayor que la distancia<br />

máxima, esto pue<strong>de</strong> ocasionar que algunos puntos que<strong>de</strong>n aislados o se conecten a lo<br />

más con otro punto. Cada punto aislado pasará a conformar un agrupamiento <strong>de</strong> un<br />

sólo punto<br />

Figura 7.4: Preparación <strong>de</strong> puntos y bor<strong>de</strong>s.<br />

Tercero, se ejecuta el procedimiento <strong>de</strong> búsqueda <strong>de</strong>l siguiente agrupamiento (ver<br />

la subsección 7.1.1) a añadir a los ya <strong>de</strong>tectados por el algoritmo. Este algoritmo calcula<br />

el punto p y sus vecinos N, tal que ellos formen el agrupamiento con la mayor <strong>de</strong>nsidad<br />

entre los agrupamientos aún no seleccionados.<br />

Cuarto, luego <strong>de</strong> añadir el agrupamiento <strong>de</strong>tectado N a la lista <strong>de</strong> agrupamientos<br />

C, se retiran <strong>de</strong> la lista <strong>de</strong> bor<strong>de</strong>s L todos los bor<strong>de</strong>s involucrados con N y <strong>de</strong> la<br />

lista <strong>de</strong> puntos P todos los puntos que conforman N. Esto permite que no se vuelva a<br />

seleccionar un punto.<br />

Finalmente, se vuelve a ejecutar el procedimiento <strong>de</strong> búsqueda <strong>de</strong>l siguiente agrupamiento.<br />

El procedimiento <strong>de</strong> selección se ejecuta hasta que se obtiene un agrupamiento<br />

vacío, es <strong>de</strong>cir hasta que todos los puntos pertenezcan a algún agrupamiento.<br />

98


7.1.1. Búsqueda <strong>de</strong>l siguiente agrupamiento<br />

Este procedimiento tiene por finalidad, seleccionar el siguiente agrupamiento que<br />

maximice una función objetivo, en este caso la <strong>de</strong>nsidad <strong>de</strong> puntos. El cálculo se realiza<br />

consi<strong>de</strong>rando que cada punto y sus vecinos correspon<strong>de</strong>n a un agrupamiento potencial,<br />

por lo que es necesario calcular la <strong>de</strong>nsidad en cada punto, buscando aquel que maximice<br />

la función objetivo. El procedimiento recibe como entradas, la lista <strong>de</strong> centroi<strong>de</strong>s <strong>de</strong><br />

los puntos no añadidos a ningún agrupamiento (P ) y la lista <strong>de</strong> bor<strong>de</strong>s indicando las<br />

distancias entre ellos (L). Se obtiene como resultado el punto (p), don<strong>de</strong> junto con sus<br />

vecinos (N) se logra la mayor <strong>de</strong>nsidad <strong>de</strong> puntos por cm 2 . N incluye al punto p.<br />

Pseudocódigo 7.1:<br />

Procedure: [N, p]=selecciona agrupamiento (P, L)<br />

1. <strong>de</strong>s<strong>de</strong> i = 1 hasta tamaño(P)<br />

2. si no seleccionado(P[i]) entonces<br />

3. V[i] = extrae vecinos(P, L, i)<br />

4. puntos = número vecinos(V[i])<br />

5. área = calcula área polígono(V[i])<br />

6. <strong>de</strong>nsidad[i]= puntos/ área<br />

7. fin si<br />

8. fin <strong>de</strong>s<strong>de</strong><br />

9. p = max índice(<strong>de</strong>nsidad)<br />

10. N = V[p]<br />

Primero, se genera un ciclo para procesar cada uno <strong>de</strong> los puntos y verificar que<br />

no hayan sido seleccionados.<br />

Segundo, se extrae la lista <strong>de</strong> vecinos V <strong>de</strong>l punto actual, los vecinos <strong>de</strong> un punto<br />

son aquellos cuya distancia es menor que máxima distancia (ver la figura 7.5), estos<br />

puntos van a conformar un agrupamiento potencial.<br />

Figura 7.5: Cálculo <strong>de</strong> la <strong>de</strong>nsidad <strong>de</strong> puntos.<br />

Tercero, se calculan 3 indicadores <strong>de</strong>s<strong>de</strong> cada agrupamiento potencial, el número <strong>de</strong><br />

puntos, el área <strong>de</strong>l polígono convexo y la <strong>de</strong>nsidad. Un polígono es convexo si cualquier<br />

99


línea que contiene un lado <strong>de</strong>l polígono no contiene un punto en el interior <strong>de</strong>l polígono,<br />

lo que asegura que se incluya a todos los puntos (ver la figura 7.5), la <strong>de</strong>nsidad <strong>de</strong> puntos<br />

se calcula mediante la siguiente fórmula:<br />

<strong>de</strong>nsidad = puntos<br />

área<br />

(7.2)<br />

Finalmente, se calcula el punto p que tenga la mayor <strong>de</strong>nsidad y se <strong>de</strong>vuelve junto<br />

con sus vecinos N = V [p].<br />

7.2. Extracción <strong>de</strong> características<br />

Luego <strong>de</strong> i<strong>de</strong>ntificar los agrupamientos <strong>de</strong> calcificaciones, se proce<strong>de</strong> a extraer un<br />

conjunto <strong>de</strong> características. El objetivo es i<strong>de</strong>ntificar un conjunto <strong>de</strong> propieda<strong>de</strong>s representativas<br />

<strong>de</strong> cada agrupamiento tal que permita clasificarlos como benignos o malignos,<br />

algunas <strong>de</strong> estas fueron usadas en trabajos semejantes. Para facilitar el cálculo <strong>de</strong> las<br />

características se pue<strong>de</strong> consi<strong>de</strong>rar que un agrupamiento <strong>de</strong> calcificaciones correspon<strong>de</strong><br />

a un polígono <strong>de</strong> n aristas, don<strong>de</strong> algunas <strong>de</strong> las calcificaciones se ubican en los vértices<br />

y otras <strong>de</strong>ntro <strong>de</strong>l polígono. Las características i<strong>de</strong>ntificadas son las siguientes:<br />

7.2.1. Forma <strong>de</strong>l agrupamiento<br />

Se obtiene <strong>de</strong>s<strong>de</strong> el polígono convexo que contiene a todas las calcificaciones <strong>de</strong>l<br />

agrupamiento y <strong>de</strong>s<strong>de</strong> los radios que se forman al unir el centroi<strong>de</strong> <strong>de</strong>l agrupamiento<br />

con cada calcificación.<br />

1. Calcificaciones.<br />

Número <strong>de</strong> calcificaciones en el agrupamiento.<br />

2. Perímetro convexo.<br />

Consi<strong>de</strong>rando que las calcificaciones están distribuidas en un plano cartesiano, se<br />

pue<strong>de</strong> <strong>de</strong>finir la envolvente convexa como la frontera <strong>de</strong> un polígono <strong>de</strong> mínima<br />

área tal que para dos puntos cualesquiera <strong>de</strong>l agrupamiento el segmento que las<br />

une está <strong>de</strong>ntro <strong>de</strong>l polígono (ver la figura 7.6.b). El perímetro convexo correspon<strong>de</strong><br />

al perímetro <strong>de</strong>l polígono que conforma la envolvente convexa.<br />

3. Área convexa.<br />

Correspon<strong>de</strong> al cierre convexo (ver la figura 7.6.c), es <strong>de</strong>cir el área encerrada que<br />

incluye a todos los puntos <strong>de</strong>l agrupamiento<br />

4. Compacidad.<br />

100


Figura 7.6: a). Agrupamiento original, b). Envolvente convexa y c). Cierre convexo.<br />

El concepto <strong>de</strong> compacidad se toma <strong>de</strong>l procesamiento <strong>de</strong> imágenes, pero aplicado<br />

al polígono convexo que contiene a las calcificaciones, se calcula como:<br />

compacidad =<br />

4área convexa<br />

perímetro convexo 2 (7.3)<br />

5. Densidad <strong>de</strong> calcificaciones.<br />

Es el número <strong>de</strong> calcificaciones entre el área convexa::<br />

<strong>de</strong>nsidad = calcificaciones<br />

área convexa<br />

(7.4)<br />

6. Radio total.<br />

Es la suma <strong>de</strong> los radios entre el centroi<strong>de</strong> <strong>de</strong>l agrupamiento y cada una <strong>de</strong> las<br />

calcificaciones.<br />

7. Radio máximo.<br />

Correspon<strong>de</strong> al mayor <strong>de</strong> los radios.<br />

8. Radio mínimo.<br />

Correspon<strong>de</strong> al menor <strong>de</strong> los radios.<br />

9. Radio promedio.<br />

Correspon<strong>de</strong> al promedio <strong>de</strong> los radios.<br />

10. Desviación estándar <strong>de</strong> los radios.<br />

Correspon<strong>de</strong> a la <strong>de</strong>sviación estándar <strong>de</strong> los radios.<br />

11. Diámetro máximo.<br />

Es la distancia máxima que pue<strong>de</strong> existir entre dos calcificaciones que conforman<br />

un agrupamiento (ver la figura 7.7).<br />

12. Diámetro mínimo.<br />

Es la distancia máxima que pue<strong>de</strong> existir entre dos calcificaciones que conforman<br />

un agrupamiento tal que la línea que las une es perpendicular a la línea que<br />

101


forma el diámetro máximo. Dado que no siempre se pue<strong>de</strong>n formar líneas entre<br />

las calcificaciones que sean perpendiculares con el diámetro máximo, se busca que<br />

uno <strong>de</strong> los extremos <strong>de</strong>l diámetro mínimo intercepte la envolvente convexa.<br />

Figura 7.7: Diámetro máximo y diámetro mínimo.<br />

13. Promedio <strong>de</strong> la distancia entre calcificaciones.<br />

Correspon<strong>de</strong> al promedio <strong>de</strong> las distancias entre calcificaciones, para n calcificaciones<br />

el número <strong>de</strong> líneas que se pue<strong>de</strong>n formar es:<br />

N(n) =<br />

n(n − 1)<br />

2<br />

(7.5)<br />

14. Desviación estándar <strong>de</strong> la distancia entre calcificaciones.<br />

Correspon<strong>de</strong> a la <strong>de</strong>sviación estándar <strong>de</strong> las distancias entre cada calcificación.<br />

7.2.2. Área <strong>de</strong> las calcificaciones<br />

Se obtiene <strong>de</strong>s<strong>de</strong> el área <strong>de</strong> las calcificaciones que conforman el agrupamiento.<br />

1. Área total <strong>de</strong> las calcificaciones.<br />

Es la suma <strong>de</strong> las áreas <strong>de</strong> las calcificaciones que conforman el agrupamiento.<br />

2. Área promedio <strong>de</strong> las calcificaciones.<br />

Correspon<strong>de</strong> al área promedio <strong>de</strong> las calcificaciones.<br />

3. Desviación estándar <strong>de</strong>l área <strong>de</strong> las calcificaciones.<br />

Correspon<strong>de</strong> a la <strong>de</strong>sviación estándar <strong>de</strong> las calcificaciones.<br />

4. Área máxima <strong>de</strong> las calcificaciones.<br />

Correspon<strong>de</strong> al área máxima <strong>de</strong> las calcificaciones.<br />

5. Área mínima <strong>de</strong> las calcificaciones.<br />

Correspon<strong>de</strong> al área mínima <strong>de</strong> las calcificaciones.<br />

102


6. Área relativa.<br />

Correspon<strong>de</strong> a la relación entre el área <strong>de</strong>l polígono convexo y el área total <strong>de</strong> las<br />

calcificaciones.<br />

área convexa<br />

relativa =<br />

(7.6)<br />

área total calcificaciones<br />

7.2.3. Contraste <strong>de</strong> las calcificaciones<br />

Se obtienen <strong>de</strong>s<strong>de</strong> el gris promedio (ver la subsección 6.1.1) <strong>de</strong> las calcificaciones.<br />

1. Total <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las calcificaciones.<br />

Correspon<strong>de</strong> a la suma <strong>de</strong> los niveles promedios <strong>de</strong> gris <strong>de</strong> las calcificaciones que<br />

conforman el agrupamiento.<br />

2. Promedio <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las calcificaciones.<br />

Correspon<strong>de</strong> al promedio <strong>de</strong> los niveles promedios <strong>de</strong> gris <strong>de</strong> las calcificaciones.<br />

3. Desviación estándar <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las calcificaciones.<br />

Correspon<strong>de</strong> a la <strong>de</strong>sviación estándar <strong>de</strong> los niveles promedios <strong>de</strong> gris <strong>de</strong> las<br />

calcificaciones.<br />

4. Máximo <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las calcificaciones.<br />

Correspon<strong>de</strong> al mayor <strong>de</strong> los niveles promedios <strong>de</strong> gris <strong>de</strong> las calcificaciones.<br />

5. Mínimo <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las calcificaciones.<br />

Correspon<strong>de</strong>n al menor <strong>de</strong> los niveles promedios <strong>de</strong> gris <strong>de</strong> las calcificaciones.<br />

6. Total <strong>de</strong>l contraste absoluto.<br />

Correspon<strong>de</strong> a la suma <strong>de</strong> los contrastes absolutos <strong>de</strong> las calcificaciones.<br />

7. Promedio <strong>de</strong>l contraste absoluto.<br />

Correspon<strong>de</strong> al promedio <strong>de</strong> los contrastes absolutos <strong>de</strong> las calcificaciones.<br />

8. Desviación estándar <strong>de</strong>l contraste absoluto.<br />

Correspon<strong>de</strong> a la <strong>de</strong>sviación estándar <strong>de</strong> los contrastes absolutos <strong>de</strong> las calcificaciones.<br />

9. Máximo <strong>de</strong>l contraste absoluto.<br />

Correspon<strong>de</strong> al máximo <strong>de</strong> los contrastes absolutos <strong>de</strong> las calcificaciones.<br />

10. Mínimo <strong>de</strong>l contraste absoluto.<br />

Correspon<strong>de</strong> al mínimo <strong>de</strong> los contrastes absolutos <strong>de</strong> las calcificaciones.<br />

103


7.2.4. Resumen <strong>de</strong> características<br />

En el cuadro 7.1 se presenta el resumen <strong>de</strong> las características extraídas <strong>de</strong>s<strong>de</strong> cada<br />

agrupamiento. Se extraen 14 características relacionadas con la forma <strong>de</strong>l agrupamiento,<br />

6 características relacionadas con el área <strong>de</strong> las calcificaciones y 10 características<br />

relacionadas con el contraste <strong>de</strong> las calcificaciones que conforman el agrupamiento.<br />

Cuadro 7.1: Resumen <strong>de</strong> características extraídas <strong>de</strong>s<strong>de</strong> los agrupamientos.<br />

forma <strong>de</strong>l agrupamiento<br />

1 calcificaciones.<br />

2 perímetro convexo.<br />

3 área convexa.<br />

4 compacidad.<br />

5 <strong>de</strong>nsidad <strong>de</strong> calcificaciones.<br />

6 radio total.<br />

7 radio máximo.<br />

8 radio mínimo.<br />

9 radio promedio.<br />

10 <strong>de</strong>sviación estándar <strong>de</strong> los radios.<br />

11 diámetro máximo.<br />

12 diámetro mínimo.<br />

13 promedio <strong>de</strong> la distancia entre calcificaciones.<br />

14 <strong>de</strong>sviación estándar <strong>de</strong> la distancia entre calcificaciones.<br />

área <strong>de</strong> las calcificaciones<br />

1 área total <strong>de</strong> las calcificaciones.<br />

2 área promedio <strong>de</strong> las calcificaciones.<br />

3 <strong>de</strong>sviación estándar <strong>de</strong>l área <strong>de</strong> las calcificaciones.<br />

4 área máxima <strong>de</strong> las calcificaciones.<br />

5 área mínima <strong>de</strong> las calcificaciones.<br />

6 área relativa.<br />

contraste <strong>de</strong> las calcificaciones<br />

1 total <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las calcificaciones.<br />

2 promedio <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las calcificaciones.<br />

3 <strong>de</strong>sviación estándar <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las calcificaciones.<br />

4 máximo <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las calcificaciones.<br />

5 mínimo <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las calcificaciones.<br />

6 total <strong>de</strong>l contraste absoluto.<br />

7 promedio <strong>de</strong>l contraste absoluto.<br />

8 <strong>de</strong>sviación estándar <strong>de</strong>l contraste absoluto.<br />

9 máximo <strong>de</strong>l contraste absoluto.<br />

10 mínimo <strong>de</strong>l contraste absoluto.<br />

104


7.3. Selección <strong>de</strong> características<br />

Se implementa un procedimiento <strong>de</strong> selección <strong>de</strong> características para encontrar<br />

un subconjunto <strong>de</strong> ellas que permitan maximizar el <strong>de</strong>sempeño <strong>de</strong> un clasificador. El<br />

procedimiento usado es el mismo que se implementó para seleccionar características<br />

<strong>de</strong>s<strong>de</strong> las señales (ver la sección 6.2).<br />

7.4. Resumen<br />

Un procedimiento para la i<strong>de</strong>ntificación <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones es<br />

presentado, para esta investigación un agrupamiento <strong>de</strong> calcificaciones es un grupo <strong>de</strong><br />

3 o más calcificaciones ubicadas <strong>de</strong>ntro <strong>de</strong> un círculo <strong>de</strong> 1 cm <strong>de</strong> radio.<br />

La técnica se <strong>de</strong>sarrolla con la finalidad <strong>de</strong> clasificar estos agrupamientos para la<br />

clase diagnóstico que tiene dos posibles valores (benignos o malignos). La clasificación<br />

se realiza en función <strong>de</strong> una serie <strong>de</strong> características extraídas y seleccionadas. El proceso<br />

<strong>de</strong> selección se realiza dado que no todas las características extraídas son capaces <strong>de</strong><br />

explicar la clase a la que pertenece el agrupamiento.<br />

Se extraen 11 características relacionadas con la forma <strong>de</strong>l agrupamiento, 4 con el<br />

área <strong>de</strong> las calcificaciones y 4 con el contraste <strong>de</strong> las calcificaciones que conforman el<br />

agrupamiento.<br />

Una <strong>de</strong>rivación no óptima <strong>de</strong> la búsqueda secuencial hacia a<strong>de</strong>lante es usada para<br />

seleccionar estas características; el algoritmo usado es el mismo que se usó para seleccionar<br />

características extraídas <strong>de</strong>s<strong>de</strong> las señales.<br />

105


Capítulo 8<br />

Experimentación y Análisis <strong>de</strong> Resultados<br />

8.1. Plataforma<br />

El software utilizado para implementar el procedimiento planteado en los capítulos<br />

anteriores fue <strong>de</strong>sarrollado en MATLAB R Release 12. Se hizo uso intensivo <strong>de</strong> las<br />

herramientas disponibles en el software (Tools Boxs), tales como el Image Processing<br />

Toolbox y el Neural Network Toolbox; a<strong>de</strong>más se <strong>de</strong>sarrollaron un conjunto <strong>de</strong> programas<br />

para implementar los requerimientos <strong>de</strong>l sistema. Las corridas se hicieron en una<br />

computadora con un procesador Pentium IV Intel <strong>de</strong> 512 MB RAM y 90GB <strong>de</strong> disco<br />

duro. El sistema operativo utilizado fue el MicrosoftR Windows XP, no fue necesario<br />

el uso <strong>de</strong> procesamiento en paralelo.<br />

8.2. Base <strong>de</strong> Datos<br />

La base <strong>de</strong> datos <strong>de</strong> imágenes <strong>de</strong> mamografías utilizada para el <strong>de</strong>sarrollo <strong>de</strong> este<br />

trabajo fue tomada <strong>de</strong> The Mammographic Image Analysis Society (MIAS [84]). La<br />

MIAS son un grupo <strong>de</strong> investigación interesados en el estudio <strong>de</strong> las mamografías conformados<br />

por investigadores <strong>de</strong>l Reino Unido. La base <strong>de</strong> datos contiene 322 imágenes<br />

y fueron usadas en muchos trabajos <strong>de</strong> investigación relacionados (ver la sección 2.2).<br />

La base <strong>de</strong> datos contiene 2 anexos <strong>de</strong> información, la primera es un resumen acerca<br />

<strong>de</strong> todas las imágenes (ver el cuadro 8.1) y la segunda presenta <strong>de</strong>talles acerca <strong>de</strong> cada<br />

imagen (ver el cuadro 8.2)<br />

8.2.1. Resumen <strong>de</strong> la base <strong>de</strong> datos.<br />

El cuadro 8.1 presenta el resumen acerca <strong>de</strong> tres variables relacionadas con la base<br />

<strong>de</strong> datos: tipo <strong>de</strong> hallazgo, tipo <strong>de</strong> tejido predominante y diagnóstico (Dx).<br />

1. Tipo <strong>de</strong> hallazgo. 118 <strong>de</strong> las imágenes tienen algún hallazgo y 204 no tienen<br />

ningún hallazgo. De las 118 imágenes 25 contienen calcificaciones, 20 contienen<br />

masas circunscritas, 21 masas espiculadas, 15 masas mal <strong>de</strong>finidas, 20 contienen<br />

107


distorsiones arquitecturales y 17 tienen <strong>de</strong>nsida<strong>de</strong>s asimétricas. Las que no tienen<br />

ningún hallazgo se consi<strong>de</strong>ran normales.<br />

2. Tipo <strong>de</strong> tejido predominante. Del total <strong>de</strong> las imágenes 106 correspon<strong>de</strong>n a tejido<br />

predominantemente graso, 104 a tejido predominantemente graso glandular y 112<br />

a tejido predominantemente <strong>de</strong>nso.<br />

3. Diagnóstico. Las 204 imágenes sin ningún hallazgo son <strong>de</strong>claradas como benignas.<br />

De las 118 con algún hallazgo 66 son benignas y 52 son malignas. Por lo tanto<br />

<strong>de</strong>l total <strong>de</strong> imágenes 270 son benignas y 52 son malignas.<br />

Cuadro 8.1: Resumen <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> la MIAS, por tipo <strong>de</strong> hallazgo y tipo <strong>de</strong><br />

tejido.<br />

Tipo <strong>de</strong> tejido<br />

Hallazgo Graso G.Glandular Denso Totales<br />

B M B M B M B M Total<br />

calcificaciones 2 4 5 4 5 5 12 13 25<br />

masas circunscritas 7 2 6 2 3 0 16 4 20<br />

masas espiculadas 2 4 4 3 6 2 12 9 21<br />

masas mal <strong>de</strong>finidas 4 4 3 2 1 1 8 7 15<br />

distorsión arquitectural 4 2 2 4 4 4 10 10 20<br />

asimetrías 2 3 3 2 3 4 8 9 17<br />

normal 66 64 74 204 204<br />

subtotal 87 19 87 17 96 16 270 52 322<br />

totales 106 104 112 322 322<br />

8.2.2. Detalle <strong>de</strong> la base <strong>de</strong> datos.<br />

La MIAS proporciona una tabla con información <strong>de</strong>tallada acerca <strong>de</strong> cada imagen.<br />

En el cuadro 8.2 se presenta un subconjunto <strong>de</strong> 25 imágenes relacionadas con las<br />

imágenes que contienen calcificaciones, la información proporcionada es la siguiente:<br />

1. Tipo <strong>de</strong> tejido predominante (tejido). Estos pue<strong>de</strong>n ser graso (F), graso glandular<br />

(G) y <strong>de</strong>nso (D).<br />

2. Tipo <strong>de</strong> hallazgo (lesión). Pue<strong>de</strong>n ser calcificaciones, masas circunscritas, masas<br />

espiculadas, masas mal <strong>de</strong>finidas, distorsiones arquitecturales o <strong>de</strong>nsida<strong>de</strong>s asimétricas,<br />

en el cuadro sólo se presenta el <strong>de</strong>talle <strong>de</strong> las imágenes que contienen calcificaciones.<br />

3. Diagnóstico (Dx). Pue<strong>de</strong> ser benignos (B) o malignos (M).<br />

4. (X,Y). Centroi<strong>de</strong> <strong>de</strong>l hallazgo. Correspon<strong>de</strong> al centro <strong>de</strong> una circunferencia <strong>de</strong>ntro<br />

<strong>de</strong>l cual se ubica el hallazgo.<br />

108


5. Radio. Es el radio <strong>de</strong> la circunferencia.<br />

Cuadro 8.2: Detalle <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> la MIAS, imágenes con calcificaciones.<br />

No Imagen Tejido Lesión Dx X Y Radio<br />

1 mdb209 G CALC M 647 503 87<br />

2 mdb211 G CALC M 680 327 13<br />

3 mdb212 G CALC (B) 687 882 10<br />

4 mdb213 G CALC M 547 520 45<br />

5 mdb214 G CALC (B) 582 916 11<br />

6 mdb216 D CALC M<br />

7 mdb218 G CALC B 519 629 8<br />

8 mdb219 G CALC B 546 756 29<br />

9 mdb222 D CALC B 398 427 17<br />

10 mdb223 D CALC B 523 482 29<br />

mdb223 D CALC B 591 529 6<br />

11 mdb226 D CALC B 287 610 7<br />

mdb226 D CALC B 329 550 25<br />

mdb226 D CALC B 531 721 8<br />

12 mdb227 G CALC B 504 467 9<br />

13 mdb231 F CALC M 603 538 44<br />

14 mdb233 G CALC M<br />

15 mdb236 D CALC B 276 824 14<br />

16 mdb238 F CALC M 522 553 17<br />

17 mdb239 D CALC M 645 755 40<br />

mdb239 D CALC M 567 808 25<br />

18 mdb240 D CALC (B) 643 614 23<br />

19 mdb241 D CALC M 453 678 38<br />

20 mdb245 F CALC M<br />

21 mdb248 F CALC B 378 601 10<br />

22 mdb249 D CALC M 544 508 48<br />

mdb249 D CALC M 575 639 64<br />

23 mdb252 F CALC B 439 367 23<br />

24 mdb253 D CALC M 733 564 28<br />

25 mdb256 F CALC M 400 484 37<br />

(B): mamografía no usada en la investigación.<br />

La mamografía mdb219 correspondiente a la fila 8 <strong>de</strong>l cuadro 8.2, es usada como<br />

ejemplo para presentar el <strong>de</strong>talle <strong>de</strong> la información. Esta mamografía es <strong>de</strong> tejido predominantemente<br />

graso glandular, con 13 calcificaciones i<strong>de</strong>ntificadas y <strong>de</strong> diagnóstico<br />

benigno.<br />

En la figura 8.1 se presenta el sistema <strong>de</strong> referencia entregado por la base <strong>de</strong> datos<br />

<strong>de</strong> la MIAS. Don<strong>de</strong> el eje X indica columnas en la imagen y el eje Y indica las filas. A<br />

diferencia <strong>de</strong> los sistemas <strong>de</strong> coor<strong>de</strong>nadas convencionales, en este caso el eje Y tiene su<br />

origen en la parte inferior <strong>de</strong> la imagen. Para convertir este sistema <strong>de</strong> coor<strong>de</strong>nadas al<br />

sistema convencional se hace uso <strong>de</strong> la siguiente matriz <strong>de</strong> transformación:<br />

109


X 1 0 0 X MIAS<br />

Y = 0 -1 1024 Y MIAS<br />

1 0 0 0 1<br />

(8.1)<br />

Don<strong>de</strong> 1024 correspon<strong>de</strong> al tamaño <strong>de</strong>l lado <strong>de</strong> la imagen.<br />

Figura 8.1: Origen <strong>de</strong>l sistema <strong>de</strong> coor<strong>de</strong>nadas (mdb219)<br />

En la figura 8.1 se presenta la imagen con un círculo cuyo centro correspon<strong>de</strong> a<br />

las coor<strong>de</strong>nadas (546, 756), el círculo tiene un radio <strong>de</strong> 29 pixeles. Dentro <strong>de</strong> la región<br />

se encuentra el hallazgo, en este caso un agrupamiento <strong>de</strong> calcificaciones.<br />

En la figura 8.2.a, se ha extraído sólo la región <strong>de</strong> interés, don<strong>de</strong> se pue<strong>de</strong>n apreciar<br />

con cierto grado <strong>de</strong> resolución algunas calcificaciones. En algunas imágenes se pue<strong>de</strong>n<br />

encontrar más <strong>de</strong> una región <strong>de</strong> interés por ejemplo en (mdb223, mdb226, mdb239 y<br />

mdb249) y en otras imágenes no se indica un centro y radio <strong>de</strong> la región (mdb216,<br />

mdb233 y mdb245), lo que indica que en toda la imagen se pue<strong>de</strong>n encontrar calcificaciones.<br />

En la figura 8.2.b, se presenta las coor<strong>de</strong>nadas <strong>de</strong>l centroi<strong>de</strong> <strong>de</strong> cada una <strong>de</strong> las 13<br />

calcificaciones i<strong>de</strong>ntificadas. Es importante resaltar que la información entregada por<br />

la base <strong>de</strong> datos <strong>de</strong> la MIAS no incluye el centroi<strong>de</strong> <strong>de</strong> cada calcificación, estos últimos<br />

datos fueron i<strong>de</strong>ntificados según el procedimiento <strong>de</strong>scrito en la subsección 8.2.4.<br />

110


Figura 8.2: Ejemplo <strong>de</strong> calcificaciones (mdb219). a). Región <strong>de</strong> interés. b) Listado <strong>de</strong><br />

centroi<strong>de</strong>s<br />

8.2.3. Análisis <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> la MIAS.<br />

Se realizó un breve análisis <strong>de</strong> los datos proporcionados en la base <strong>de</strong> datos <strong>de</strong> la<br />

MIAS, con la finalidad <strong>de</strong> confirmar la información disponible, llegándose a las siguientes<br />

resultados (ver el cuadro 8.3):<br />

1. En dos <strong>de</strong> las imágenes, la ubicación <strong>de</strong> la región indicada cae fuera <strong>de</strong> la región<br />

que contiene la mama (mdb212 y mdb214) (ver la figura 8.3), por lo que se<br />

<strong>de</strong>terminó que estas imágenes no contienen calcificaciones.<br />

2. En una <strong>de</strong> las imágenes, en la ubicación <strong>de</strong> la región indicada no se encuentra<br />

ningún hallazgo significativo (mdb240).<br />

3. En tres imágenes, no se proporciona el dato <strong>de</strong> centroi<strong>de</strong> y <strong>de</strong> radio (mdb216,<br />

mdb233 y mdb245), dado que se pue<strong>de</strong>n ubicar calcificaciones en gran parte <strong>de</strong><br />

la mama.<br />

4. En cuatro <strong>de</strong> las imágenes, se pue<strong>de</strong>n encontrar más <strong>de</strong> una región <strong>de</strong> interés<br />

(mdb223, mdb226, mdb239 y mdb249), correspondiendo probablemente cada una<br />

a un agrupamiento.<br />

5. En total se ha i<strong>de</strong>ntificado 252 calcificaciones y 27 regiones <strong>de</strong> interés; el promedio<br />

es 9.3 calcificaciones por región.<br />

6. 14 <strong>de</strong> las imágenes tienen menos <strong>de</strong> 10 calcificaciones, 5 tienen entre 10 y 20<br />

calcificaciones y 3 tienen más <strong>de</strong> 20 calcificaciones. El promedio es <strong>de</strong> 11.4 <strong>de</strong><br />

calcificaciones por imagen.<br />

111


Cuadro 8.3: Número <strong>de</strong> regiones y número <strong>de</strong> calcificaciones por imagen.<br />

No Imagen Diagnóstico <strong>Agrupamientos</strong> Calcificaciones<br />

1 mdb209 M 1 19<br />

2 mdb211 M 1 2<br />

3 mdb212 (B) 0<br />

4 mdb213 M 1 15<br />

5 mdb214 (B) 0<br />

6 mdb216 M 1 21<br />

7 mdb218 B 1 3<br />

8 mdb219 B 1 13<br />

9 mdb222 B 1 3<br />

10 mdb223 B 2 6<br />

11 mdb226 B 3 4<br />

12 mdb227 B 1 2<br />

13 mdb231 M 1 2<br />

14 mdb233 M 1 65<br />

15 mdb236 B 1 4<br />

16 mdb238 M 1 5<br />

17 mdb239 M 2 2<br />

18 mdb240 (B) 0<br />

19 mdb241 M 1 12<br />

20 mdb245 M 1 43<br />

21 mdb248 B 1 4<br />

22 mdb249 M 2 11<br />

23 mdb252 B 1 7<br />

24 mdb253 M 1 5<br />

25 mdb256 M 1 4<br />

total 27 252<br />

promedio 9.3<br />

(B): Mamografía no usada en la investigación.<br />

En resumen sólo 22 <strong>de</strong> las 25 imágenes con diagnóstico <strong>de</strong> calcificación tienen al<br />

menos una calcificación, por lo que el número <strong>de</strong> imágenes que se usarán como muestras<br />

con calcificaciones se reducen a 22 y el número <strong>de</strong> muestras sin calcificaciones aumenta<br />

a 300 imágenes.<br />

Por otro lado este análisis permite llegar a la conclusión que los datos <strong>de</strong> radio y<br />

centroi<strong>de</strong> <strong>de</strong> los hallazgos son útiles si se trata <strong>de</strong> masas, distorsiones arquitecturales o<br />

agrupamientos <strong>de</strong>finidos, pero no son útiles si se trata <strong>de</strong> calcificaciones individuales,<br />

dado que en el área indicada se pue<strong>de</strong>n i<strong>de</strong>ntificar muchas calcificaciones y otros objetos<br />

que no lo son, dificultando la i<strong>de</strong>ntificación <strong>de</strong> aquellos.<br />

Para resolver este problema se consi<strong>de</strong>ró <strong>de</strong>sarrollar un procedimiento que i<strong>de</strong>ntifica<br />

el centroi<strong>de</strong> <strong>de</strong> cada calcificación y validar su ubicación, in<strong>de</strong>pendientemente <strong>de</strong>l<br />

proceso general <strong>de</strong> la investigación.<br />

112


Figura 8.3: Mamografías con regiones <strong>de</strong> interés fuera <strong>de</strong> la mama<br />

8.2.4. Preparación <strong>de</strong> los datos <strong>de</strong> prueba<br />

Se <strong>de</strong>sarrolló un procedimiento para i<strong>de</strong>ntificar el centroi<strong>de</strong> <strong>de</strong> cada calcificación;<br />

este procedimiento está conformado por dos activida<strong>de</strong>s, una automática y otra manual.<br />

Esta activida<strong>de</strong>s se <strong>de</strong>sarrollaron porque la información proporcionada por la base <strong>de</strong><br />

datos <strong>de</strong> la MIAS no contiene el centroi<strong>de</strong> <strong>de</strong> cada calcificación. Es importante consi<strong>de</strong>rar<br />

que este procedimiento es in<strong>de</strong>pendiente <strong>de</strong>l proceso general <strong>de</strong> la investigación,<br />

se <strong>de</strong>sarrolla antes <strong>de</strong> efectuar los experimentos mencionados en las siguientes secciones<br />

para evitar interferir en los resultados.<br />

Este procedimiento <strong>de</strong>bería ser realizado por especialistas en el diagnóstico <strong>de</strong>l<br />

cáncer <strong>de</strong> mama, pero se consi<strong>de</strong>ró su <strong>de</strong>sarrollo <strong>de</strong>ntro <strong>de</strong> la investigación por razones<br />

prácticas (falta <strong>de</strong> disponibilidad <strong>de</strong> tiempo <strong>de</strong>l especialista). La implicación principal <strong>de</strong><br />

<strong>de</strong>sarrollar estas activida<strong>de</strong>s en paralelo con la investigación es que se pue<strong>de</strong>n adicionar<br />

ruido a los resultados obtenidos. En la figura 8.4 se presenta un diagrama especificando<br />

las dos activida<strong>de</strong>s <strong>de</strong>sarrolladas.<br />

Figura 8.4: Activida<strong>de</strong>s para i<strong>de</strong>ntificar calcificaciones en las imágenes.<br />

113


El procedimiento recibe las imágenes y las procesa en dos activida<strong>de</strong>s. La primera<br />

intenta obtener la mayor cantidad <strong>de</strong> potenciales calcificaciones (puntos) aplicando diferentes<br />

filtros DoG en cascada, esta actividad es realizada por la computadora. La<br />

segunda actividad verifica si las puntos i<strong>de</strong>ntificados en la actividad anterior correspon<strong>de</strong><br />

a una calcificación. Esta actividad se realiza visualmente y es ejecutada por el<br />

analista; la principal limitación <strong>de</strong> esta segunda actividad es la fatiga visual si se trabaja<br />

continuamente por más <strong>de</strong> 4 horas. El tiempo promedio necesario para <strong>de</strong>sarrollar<br />

esta actividad fue <strong>de</strong> 3 a 5 horas por imagen. El resultado <strong>de</strong>l procedimiento es la lista<br />

<strong>de</strong> los centroi<strong>de</strong>s <strong>de</strong> las calcificaciones existentes en cada imagen (ver los cuadros 8.5,<br />

8.6 y 8.7).<br />

1. Filtro DoG en cascada.<br />

Cómo se menciona en la sección 5.1, el filtro DoG es un filtro pasa bandas, es<br />

<strong>de</strong>cir <strong>de</strong>ja pasar sólo algunas bandas <strong>de</strong> frecuencia <strong>de</strong>pendiendo <strong>de</strong> la relación<br />

σ 2 /σ 1 . Por lo que si se aplican una serie <strong>de</strong> filtros DoG con diferentes valores<br />

para σ 2 /σ 1 a una imagen es posible abarcar mayores rangos <strong>de</strong> frecuencia y por<br />

lo tanto abarcar la mayor cantidad <strong>de</strong> potenciales calcificaciones.<br />

Los filtros DoG aplicados fueron obtenidos combinando filtros gaussianos <strong>de</strong> 5x5,<br />

7x7, 9x9, 11x11, 13x13 y 15x15 (ver las figuras 8.23, 8.24 y 8.25), en total se<br />

aplicaron 15 filtros DoG (ver la figura 8.22), el umbral <strong>de</strong> binarización fue variable<br />

en el intervalo 0.0 a 5.0 (variación <strong>de</strong> 0.1), para todos los filtros DoG. Este método<br />

permite incluir todos los posibles puntos con cierto nivel <strong>de</strong> gradiente positivo en<br />

la imagen.<br />

Aplicando cada uno <strong>de</strong> los filtros DoG a cada imagen con diferentes umbrales <strong>de</strong><br />

binarización, se obtiene una lista <strong>de</strong> centroi<strong>de</strong>s (puntos). Esta lista fue combinada<br />

con la lista <strong>de</strong> centroi<strong>de</strong>s obtenidas <strong>de</strong> aplicar el siguiente filtro DoG (ver la figura<br />

8.5) y el resultado <strong>de</strong> esta primera combinación fue nuevamente combinado con<br />

la siguiente lista <strong>de</strong> centroi<strong>de</strong>s obtenidos para el siguiente filtro DoG. El criterio<br />

consi<strong>de</strong>rado para combinar los puntos fue el siguiente: si dos puntos se encuentran<br />

a una distancia menor a 2.4 pixeles se les consi<strong>de</strong>ra como el mismo punto y el<br />

centroi<strong>de</strong> <strong>de</strong>l nuevo punto pasa a ser el punto que tiene el mayor promedio <strong>de</strong><br />

gris y/o el mayor gradiente. Por otro lado, intentando reducir más la cantidad <strong>de</strong><br />

puntos a analizar, se consi<strong>de</strong>ra sólo aquellos que se encuentran <strong>de</strong>ntro <strong>de</strong>l círculo<br />

proporcionado por la base <strong>de</strong> datos <strong>de</strong> la MIAS; finalmente se lograron obtener<br />

80,625 puntos (ver el cuadro 8.4).<br />

Luego <strong>de</strong> obtener la lista <strong>de</strong> puntos <strong>de</strong>s<strong>de</strong> cada imagen, se proce<strong>de</strong> a aplicar<br />

dos procedimientos <strong>de</strong> selección por nivel <strong>de</strong> gris y por gradiente <strong>de</strong> gris, con la<br />

finalidad <strong>de</strong> reducir la gran cantidad <strong>de</strong> puntos i<strong>de</strong>ntificados.<br />

El número <strong>de</strong> puntos seleccionados es bastante sensible al criterio <strong>de</strong> gradiente<br />

114


Figura 8.5: Aplicación <strong>de</strong>l filtro DoG en cascada<br />

<strong>de</strong> gris promedio y al contraste absoluto (gradiente <strong>de</strong> gris). En la figura 8.6 se<br />

observa el porcentaje <strong>de</strong> puntos seleccionados en función <strong>de</strong>l gradiente <strong>de</strong> gris;<br />

esta curva se obtiene <strong>de</strong>s<strong>de</strong> los datos <strong>de</strong>l cuadro 8.4 se observa la fuerte <strong>de</strong>pen<strong>de</strong>ncia<br />

entre el número <strong>de</strong> puntos seleccionados y el gradiente <strong>de</strong> gris. Por otro<br />

lado se seleccionan sólo los puntos con promedio <strong>de</strong> gris mayores que cero, este<br />

último criterio fue complementario. Tomando en consi<strong>de</strong>ración estos dos criterios<br />

se tomó la <strong>de</strong>cisión <strong>de</strong> colocar el umbral para el gradiente <strong>de</strong> gris en 2.5. En la<br />

figura 8.6 se pue<strong>de</strong> apreciar que este punto es cercano al punto <strong>de</strong> inflexión <strong>de</strong> la<br />

curva.<br />

Figura 8.6: Porcentaje <strong>de</strong> puntos seleccionados según el gradiente <strong>de</strong> gris promedio.<br />

Al finalizar este procedimiento se obtienen 44,934 puntos, en promedio 2,042<br />

115


puntos por imagen. Sin consi<strong>de</strong>rar las mamografías mdb216, mdb233, mdb245<br />

que abarcan el 85.26 % <strong>de</strong> los puntos, el promedio es <strong>de</strong> 349 puntos y sólo en estas<br />

tres imágenes el promedio es <strong>de</strong> 6,622 puntos.<br />

2. Validación visual.<br />

Esta actividad es la más importante en el procedimiento, dado que se trata <strong>de</strong><br />

verificar cada uno <strong>de</strong> los puntos i<strong>de</strong>ntificados en la etapa anterior. La actividad<br />

consiste en verificar visualmente cada punto y validar si se trata o no <strong>de</strong> una<br />

calcificación. Esta actividad es bastante tediosa <strong>de</strong>bido a los <strong>de</strong>talles que hay que<br />

tener en consi<strong>de</strong>ración para tomar una <strong>de</strong>cisión. Se presentaron muchos casos<br />

don<strong>de</strong> se indicaba que existía una calcificación pero al verificar visualmente no<br />

se lograba i<strong>de</strong>ntificar puntos brillantes, por lo que se <strong>de</strong>scartaban y por otro lado<br />

se ubicaron puntos brillantes en la imagen que no se encontraban en la lista <strong>de</strong><br />

puntos, por lo que fue necesario verificar si fueron <strong>de</strong>purados en las dos etapas<br />

<strong>de</strong> selección. En algunos caso fue necesario modificar el proceso <strong>de</strong> selección para<br />

incluir estos puntos.<br />

Esta etapa fue apoyada por algunas heurísticas creadas mientras se realizaba el<br />

trabajo, entre ellas la <strong>de</strong> tomar en consi<strong>de</strong>ración sólo los pixeles con los mayores<br />

niveles <strong>de</strong> gris. Partiendo <strong>de</strong> este punto, calcular el promedio <strong>de</strong> gris <strong>de</strong> sus 8, 24<br />

y 48 vecinos hasta ubicar una distancia don<strong>de</strong> el gradiente <strong>de</strong> gris empezaba a<br />

<strong>de</strong>crecer.<br />

Cómo resultado final <strong>de</strong> estas dos activida<strong>de</strong>s se logró i<strong>de</strong>ntificar los puntos presentados<br />

en los cuadros 8.5, 8.6 y 8.7, las coor<strong>de</strong>nadas <strong>de</strong> los puntos se presentan según<br />

el sistema <strong>de</strong> coor<strong>de</strong>nadas convencionales don<strong>de</strong> el origen correspon<strong>de</strong> a la esquina<br />

superior izquierda <strong>de</strong> la imagen.<br />

Un aspecto importante es este procedimiento <strong>de</strong> preparación <strong>de</strong> los datos <strong>de</strong> prueba<br />

es que sólo se intenta conocer el centroi<strong>de</strong> las calcificaciones, no se preten<strong>de</strong> conocer<br />

datos acerca <strong>de</strong>l área, el gradiente <strong>de</strong> gris o alguna otra característica; el motivo <strong>de</strong><br />

está <strong>de</strong>cisión es que una calcificación (representada por su centroi<strong>de</strong>) pue<strong>de</strong> ser <strong>de</strong>tectada<br />

por diferentes filtros DoG con diferentes umbrales y por lo tanto por cada uno<br />

<strong>de</strong> ellos se pue<strong>de</strong> tener diferentes combinaciones <strong>de</strong> pixeles (ver la figura 8.7) y ante<br />

diferentes combinaciones <strong>de</strong> pixeles con el mismo centroi<strong>de</strong> se pue<strong>de</strong>n tener diferentes<br />

características. Este problema será resuelto en la subsección 8.4.1.<br />

116


Figura 8.7: Ejemplo <strong>de</strong> calcificaciones con el mismo centroi<strong>de</strong> pero diferentes pixeles.<br />

Cuadro 8.4: Número <strong>de</strong> puntos extraídos automáticamente y número <strong>de</strong> calcificaciones<br />

i<strong>de</strong>ntificadas manualmente.<br />

imagen puntos grad grad grad grad grad calcificacercanos<br />

>0.0 >2.5 >5.0 >7.5 >10.0 ciones<br />

209 1,817 1,771 1,454 896 376 156 19<br />

211 115 113 100 69 60 44 2<br />

212 0<br />

213 567 541 426 293 213 126 15<br />

214 0<br />

216 28,594 27,182 16,329 6,559 2,360 888 21<br />

218 70 68 50 31 17 3 3<br />

219 335 325 261 173 82 53 13<br />

222 146 143 104 63 6 1 3<br />

223 387 375 333 172 110 79 6<br />

226 403 397 317 127 40 11 4<br />

227 72 72 65 48 32 30 2<br />

231 582 547 438 245 143 92 2<br />

233 22,427 21,338 12,194 4,275 1,343 544 65<br />

236 116 112 86 37 24 13 4<br />

238 141 138 109 63 30 19 5<br />

239 703 672 530 337 163 52 2<br />

240 0<br />

241 473 462 385 244 175 131 12<br />

245 20,937 19,330 9,789 3,445 1,092 418 43<br />

248 94 89 50 20 18 12 4<br />

249 1,746 1,702 1,273 647 275 135 11<br />

252 199 198 148 89 26 14 7<br />

253 279 271 192 59 31 15 5<br />

256 422 418 301 110 15 0 4<br />

total 80,625 76,264 44,934 18,002 6,631 2,836 252<br />

prom 3,665 3,467 2,042 818 301 129 11<br />

std 8,372 7,903 4,495 1,692 575 218 15<br />

117


Cuadro 8.5: Calcificaciones i<strong>de</strong>ntificadas. Mamografías mdb209, mdb211, mdb213,<br />

mdb216, mdb218, mdb219, mdb222, mdb223, mdb226, mdb227.<br />

imagen X Y imagen X Y imagen X Y<br />

209 584 502 213 524 479 218 513 399<br />

209 584 511 213 536 540 218 523 399<br />

209 596 568 213 540 469 218 524 391<br />

209 617 507 213 541 478 219 526 257<br />

209 621 512 213 545 541 219 526 286<br />

209 627 563 213 556 544 219 528 280<br />

209 643 575 213 557 544 219 531 281<br />

209 644 512 213 560 540 219 534 264<br />

209 644 586 213 562 538 219 539 282<br />

209 646 516 213 566 538 219 544 273<br />

209 649 504 213 569 529 219 544 282<br />

209 653 527 213 571 526 219 545 282<br />

209 656 547 213 577 514 219 548 258<br />

209 689 532 213 578 521 219 549 282<br />

209 693 504 213 579 532 219 549 286<br />

209 693 540 219 573 263<br />

209 709 553 216 335 498<br />

209 712 517 216 337 499 222 385 584<br />

209 715 500 216 343 526 222 395 601<br />

216 345 234 222 399 607<br />

211 676 709 216 373 251<br />

211 685 701 216 382 510 223 508 538<br />

216 392 261 223 513 531<br />

216 410 270 223 515 525<br />

216 424 196 223 525 522<br />

216 443 497 223 539 535<br />

216 502 148 223 590 499<br />

216 504 184<br />

216 507 557 226 282 419<br />

216 531 504 226 287 418<br />

216 545 534 226 292 414<br />

216 626 215 226 532 310<br />

216 627 486<br />

216 640 346 227 502 554<br />

216 688 387 227 506 560<br />

216 709 423<br />

216 742 480<br />

118


Cuadro 8.6: Calcificaciones i<strong>de</strong>ntificadas. Mamografías mdb231, mdb233, mdb236,<br />

mdb238, mdb239 y mdb241.<br />

imagen X Y imagen X Y imagen X Y<br />

231 576 467 233 649 790 236 264 198<br />

231 604 492 233 650 805 236 270 206<br />

233 652 693 236 275 199<br />

233 483 775 233 653 846 236 280 212<br />

233 489 770 233 656 727<br />

233 518 667 233 656 844 238 511 469<br />

233 519 780 233 659 690 238 520 464<br />

233 523 698 233 660 872 238 521 486<br />

233 527 715 233 661 841 238 526 480<br />

233 552 787 233 664 656 238 531 486<br />

233 561 627 233 665 834<br />

233 563 793 233 667 778 239 561 193<br />

233 564 634 233 668 809 239 635 296<br />

233 565 628 233 669 839<br />

233 566 640 233 671 821 241 435 370<br />

233 579 683 233 672 805 241 437 379<br />

233 589 763 233 673 837 241 441 368<br />

233 595 719 233 681 832 241 450 323<br />

233 601 750 233 682 815 241 450 348<br />

233 604 595 233 683 810 241 452 358<br />

233 609 749 233 692 816 241 454 342<br />

233 609 827 233 694 811 241 460 336<br />

233 613 659 233 695 830 241 462 349<br />

233 621 693 233 696 805 241 463 350<br />

233 623 591 233 696 841 241 463 358<br />

233 624 583 233 699 833 241 467 329<br />

233 629 695 233 699 850<br />

233 629 836 233 704 765<br />

233 632 857 233 707 806<br />

233 637 805 233 709 822<br />

233 638 661 233 713 837<br />

233 640 865 233 727 771<br />

233 646 682 233 736 830<br />

233 646 877 233 750 846<br />

119


Cuadro 8.7: Calcificaciones i<strong>de</strong>ntificadas. Mamografías mdb245, mdb248, mdb249,<br />

mdb252, mdb253 y mdb256.<br />

imagen X Y imagen X Y imagen X Y<br />

245 424 773 245 654 740 252 426 642<br />

245 508 820 245 656 755 252 429 646<br />

245 554 848 245 657 753 252 431 659<br />

245 561 868 245 662 700 252 436 661<br />

245 567 865 245 666 745 252 440 653<br />

245 571 873 245 668 813 252 444 654<br />

245 577 853 245 668 894 252 454 663<br />

245 578 882 245 670 738<br />

245 583 821 245 690 729 253 728 459<br />

245 590 847 245 691 900 253 731 454<br />

245 592 890 245 693 725 253 752 459<br />

245 593 772 245 696 771 253 760 462<br />

245 604 765 245 705 762 253 762 456<br />

245 610 761<br />

245 612 803 248 371 422 256 382 521<br />

245 613 788 248 373 429 256 388 524<br />

245 614 759 248 381 420 256 392 556<br />

245 614 897 248 381 425 256 420 511<br />

245 624 893<br />

245 630 895 249 537 502<br />

245 634 799 249 541 527<br />

245 636 915 249 542 531<br />

245 639 870 249 544 406<br />

245 643 830 249 546 430<br />

245 644 765 249 550 514<br />

245 646 772 249 557 519<br />

245 647 922 249 560 492<br />

245 649 825 249 560 527<br />

245 649 839 249 564 421<br />

245 652 733 249 588 343<br />

120


8.3. Diseño <strong>de</strong>l experimento<br />

8.3.1. Sensibilidad y especificidad <strong>de</strong> un experimento<br />

Las calcificaciones representan frecuentemente y a veces la única forma <strong>de</strong> <strong>de</strong>tectar<br />

tempranamente el cáncer <strong>de</strong> mama, por lo que es importante no <strong>de</strong>scartar ninguna calcificación,<br />

dado que se podría per<strong>de</strong>r información valiosa. En el proceso <strong>de</strong> diagnóstico es<br />

importante reducir los falsos negativos, es <strong>de</strong>cir aquellos casos en que siendo realmente<br />

positivos se les <strong>de</strong>clara negativos, lo que implicaría <strong>de</strong>jar que la paciente <strong>de</strong>sarrolle la<br />

enfermedad. Esta <strong>de</strong>cisión no es fácil, si se amplía el umbral para tratar <strong>de</strong> cubrir la<br />

mayor parte <strong>de</strong> estos casos también se pue<strong>de</strong> incrementar la presencia <strong>de</strong> los falsos<br />

positivos, es <strong>de</strong>cir incluir aquellos casos que siendo realmente negativos se les consi<strong>de</strong>ra<br />

positivos, esto se pue<strong>de</strong> ver con más <strong>de</strong>talle en la figura 8.8. Este segundo caso también<br />

es contraproducente dado que se pue<strong>de</strong>n generar falsas alarmas y por lo tanto reducir<br />

la confiabilidad <strong>de</strong>l sistema.<br />

Figura 8.8: Relación entre verda<strong>de</strong>ros positivos, verda<strong>de</strong>ros negativos, falsos positivos<br />

y falsos negativos<br />

El problema que se plantea entonces es cómo medir los resultados <strong>de</strong>l experimento,<br />

dado que la utilidad <strong>de</strong> la investigación <strong>de</strong>pen<strong>de</strong>rá <strong>de</strong> en cuánto se logran reducir los<br />

falsos positivos y los falsos negativos. La vali<strong>de</strong>z <strong>de</strong> una prueba diagnóstica se pue<strong>de</strong><br />

medir por medio <strong>de</strong> dos parámetros: la sensibilidad y la especificidad. Estos parámetros<br />

se obtienen <strong>de</strong>s<strong>de</strong> la siguiente tabla <strong>de</strong> contingencia (ver la figura 8.9).<br />

1. Sensibilidad (fracción <strong>de</strong> verda<strong>de</strong>ros positivos).<br />

Es la probabilidad <strong>de</strong> clasificar correctamente a un caso como enfermo, es <strong>de</strong>cir<br />

es la proporción <strong>de</strong> verda<strong>de</strong>ros positivos i<strong>de</strong>ntificados por la prueba <strong>de</strong>l total <strong>de</strong><br />

enfermos.<br />

sensibilidad =<br />

V P<br />

V P + F N<br />

(8.2)<br />

121


Figura 8.9: Tabla <strong>de</strong> contingencia <strong>de</strong> una prueba<br />

2. Especificidad (fracción <strong>de</strong> verda<strong>de</strong>ros negativos).<br />

Es la probabilidad <strong>de</strong> clasificar correctamente a un individuo sano, es <strong>de</strong>cir es la<br />

proporción <strong>de</strong> verda<strong>de</strong>ros negativos i<strong>de</strong>ntificados por la prueba <strong>de</strong>l total <strong>de</strong> sanos.<br />

especificidad =<br />

V N<br />

V N + F P<br />

(8.3)<br />

Por otro lado <strong>de</strong>s<strong>de</strong> la tabla <strong>de</strong> contingencia es posible calcular otros dos indicadores<br />

bastante útiles:<br />

1. Valor predictivo positivo (VPP)<br />

Es la proporción <strong>de</strong> casos que verda<strong>de</strong>ramente tienen la enfermedad, entre los que<br />

dieron positivo.<br />

V P P =<br />

V P<br />

V P + F P<br />

(8.4)<br />

2. Valor predictivo negativo (VPP)<br />

Es la proporción <strong>de</strong> casos que verda<strong>de</strong>ramente son sanos, entre los que dieron<br />

negativo.<br />

V P N =<br />

V N<br />

F N + V N<br />

(8.5)<br />

122


8.4. Experimentación<br />

La etapa <strong>de</strong> experimentación preten<strong>de</strong> <strong>de</strong>sarrollar una serie <strong>de</strong> experimentos para<br />

calcular los parámetros y validar los procedimiento <strong>de</strong>sarrollados en esta investigación.<br />

8.4.1. Extracción <strong>de</strong> puntos con 15 filtros DoG y 51 umbrales<br />

Este experimento preten<strong>de</strong> i<strong>de</strong>ntificar la mayor cantidad <strong>de</strong> puntos <strong>de</strong>s<strong>de</strong> las 22<br />

mamografías con calcificaciones. Des<strong>de</strong> cada mamografía en promedio se pue<strong>de</strong>n obtener<br />

entre 2,700 a 3,500 puntos <strong>de</strong> los cuales a los más 65 <strong>de</strong> ellos pue<strong>de</strong>n ser calcificaciones<br />

(ver el cuadro 8.3). Se aplican procedimientos <strong>de</strong> selección hasta lograr i<strong>de</strong>ntificar las<br />

252 calcificaciones y sus propieda<strong>de</strong>s.<br />

Determinar qué puntos i<strong>de</strong>ntificados por un filtro DoG correspon<strong>de</strong>n a una calcificación<br />

es el problema que se preten<strong>de</strong> respon<strong>de</strong>r con el siguiente experimento. El<br />

flujograma <strong>de</strong> las activida<strong>de</strong>s que conforman el experimento se presenta en la figura<br />

8.10. Los resultados <strong>de</strong> este experimento se usan para <strong>de</strong>terminar los parámetros y validar<br />

los procedimientos <strong>de</strong> las etapas <strong>de</strong> preprocesamiento, <strong>de</strong>tección <strong>de</strong> calcificaciones<br />

y extracción <strong>de</strong> características.<br />

Figura 8.10: Diagrama <strong>de</strong> flujo. Experimento 1.<br />

123


En total se realizan 4 activida<strong>de</strong>s, aplicación <strong>de</strong>l filtro DoG (A), cálculo <strong>de</strong> puntos<br />

cercanos (B), selección <strong>de</strong> puntos (C), y calcificaciones (D). Al procedimiento ingresan<br />

las 22 imágenes con calcificaciones (I), 15 filtros DoG (DoG), 51 umbrales <strong>de</strong> binarización<br />

(th) y la lista <strong>de</strong> centroi<strong>de</strong>s <strong>de</strong> las calcificaciones i<strong>de</strong>ntificadas en la sección<br />

8.2.4 (R). Se obtienen como resultados cuatro listas: la lista <strong>de</strong> puntos (puntos), la lista<br />

<strong>de</strong> puntos cercanos a una calcificación (puntos cercanos), la lista <strong>de</strong> puntos seleccionados<br />

(puntos seleccionados) y finalmente la lista <strong>de</strong> calcificaciones.<br />

La aplicación <strong>de</strong>l filtro DoG i<strong>de</strong>ntifica la mayor cantidad <strong>de</strong> puntos <strong>de</strong>s<strong>de</strong> cada imagen.<br />

El procedimiento cálculo <strong>de</strong> puntos cercanos los <strong>de</strong>pura consi<strong>de</strong>rando sólo aquellos<br />

que se encuentran cerca <strong>de</strong>l centroi<strong>de</strong> <strong>de</strong> alguna calcificación; la distancia máxima que<br />

se consi<strong>de</strong>ra es 2.4 pixeles. El procedimiento <strong>de</strong> selección <strong>de</strong> puntos <strong>de</strong>pura los puntos<br />

cercanos a una calcificación consi<strong>de</strong>rando tres criterios: <strong>de</strong> área, <strong>de</strong> gris y <strong>de</strong> gradiente<br />

intentando formar grupos <strong>de</strong> puntos cercanos al centroi<strong>de</strong> <strong>de</strong> una calcificación con<br />

la restricción que cada grupo tenga al menos un punto y finalmente el procedimiento<br />

<strong>de</strong> calcificación obtiene un estimador <strong>de</strong>l valor <strong>de</strong> cada característica asociada a una<br />

calcificación como el promedio <strong>de</strong> las características asociadas a sus puntos cercanos.<br />

Aplicación <strong>de</strong>l filtro DoG (A)<br />

Esta actividad preten<strong>de</strong> i<strong>de</strong>ntificar puntos en las imágenes mediante la aplicación<br />

<strong>de</strong> los siguientes procedimientos, el procedimiento <strong>de</strong> selección aplicado correspon<strong>de</strong> a<br />

extraer sólo los puntos ubicados <strong>de</strong>ntro <strong>de</strong>l círculo proporcionado por la base <strong>de</strong> datos<br />

<strong>de</strong> la MIAS:<br />

1. Imágenes. Se consi<strong>de</strong>ran sólo las 22 imágenes <strong>de</strong>l cuadro 8.3. Para cada imagen se<br />

consi<strong>de</strong>ra como los puntos verda<strong>de</strong>ros positivos aquellos indicados en los cuadros<br />

8.5, 8.6 y 8.7.<br />

2. Preprocesamiento (ver el capítulo 4).<br />

3. Filtro DoG. Se trabaja con los 15 filtros DoG mencionados en la figura 8.22. El<br />

procedimiento aplicado se <strong>de</strong>scribe en la subsección 8.2.4.<br />

4. Umbral <strong>de</strong> binarización. Cuando se aplica el procedimiento <strong>de</strong> binarización, se<br />

varía el umbral <strong>de</strong> binarización en el rango 0 a 5 variando <strong>de</strong> 0.1 en 0.1, en total<br />

se generan 51 umbrales.<br />

5. Etiquetado <strong>de</strong> regiones. Se aplica el procedimiento mencionado en la sección 5.3.<br />

Se etiquetan los puntos <strong>de</strong>tectados por cada filtro, adicionalmente se marca cada<br />

punto con 1, si es que se encuentra a una distancia menor o igual que 2.4 pixeles<br />

<strong>de</strong> algún punto verda<strong>de</strong>ro positivo y con 0 en caso contrario. Todos los puntos<br />

marcados con 1 correspon<strong>de</strong>n a puntos cercanos.<br />

124


6. Segmentación. Se aplica el procedimiento mencionado en la sección 5.5.<br />

7. Selección. No se aplica ningún procedimiento <strong>de</strong> selección con la finalidad <strong>de</strong> no<br />

<strong>de</strong>scartar ningún punto.<br />

8. Puntos. Aquellos puntos ubicados fuera <strong>de</strong> la región especificada por base <strong>de</strong><br />

datos <strong>de</strong> la MIAS son eliminados <strong>de</strong> la lista. Este procedimiento permite que<br />

gran cantidad <strong>de</strong> puntos no se consi<strong>de</strong>ren y por lo tanto se reduzca su número.<br />

9. Características. Des<strong>de</strong> cada punto se extraen las 47 características mencionadas<br />

en el cuadro 6.2. La estructura <strong>de</strong> los datos (atributos extraídos <strong>de</strong>s<strong>de</strong> cada punto)<br />

es la misma en todos los casos.<br />

En la figura 8.11 se presenta la distribución <strong>de</strong>l número <strong>de</strong> puntos i<strong>de</strong>ntificados<br />

por el filtro DoG, así para umbral = 0, existe 25,240 puntos <strong>de</strong>tectados, existe gran<br />

acumulación <strong>de</strong> puntos alre<strong>de</strong>dor <strong>de</strong> umbral = 0.4 (69,518 puntos).<br />

El paso por cada actividad reduce el número <strong>de</strong> puntos en la lista, en total se han<br />

extraído <strong>de</strong> 1,242,179 puntos, que se reducen a 8,566 puntos cercanos, luego a 4,612<br />

puntos seleccionados y finalmente se logran obtener las 252 calcificaciones.<br />

Figura 8.11: Distribución <strong>de</strong> frecuencia, número <strong>de</strong> puntos según el umbral.<br />

125


Cálculo <strong>de</strong> puntos cercanos (B)<br />

Luego <strong>de</strong> extraer los puntos, éstos son seleccionados, se consi<strong>de</strong>ra sólo aquellos que<br />

se encuentren a menos <strong>de</strong> 2.4 pixeles <strong>de</strong> alguna calcificación (R) (ver la figura 8.12). El<br />

criterio <strong>de</strong> distancia se tomó en consi<strong>de</strong>ración para tratar <strong>de</strong> incluir los 8 pixeles vecinos<br />

más cercanos al centroi<strong>de</strong> <strong>de</strong> la calcificación y los 12 pixeles ubicados a una distancia<br />

<strong>de</strong> más <strong>de</strong> 2 pixeles, pero menos <strong>de</strong> 3 pixeles.<br />

Figura 8.12: Pixeles consi<strong>de</strong>rados como cercanos.<br />

En la figura 8.13 se presenta la distribución <strong>de</strong>l número <strong>de</strong> puntos cercanos a una<br />

calcificación. Existe fuerte acumulación <strong>de</strong> puntos alre<strong>de</strong>dor <strong>de</strong> umbral = 1.<br />

Figura 8.13: Distribución <strong>de</strong> frecuencia, número <strong>de</strong> puntos cercanos según el umbral.<br />

Esta actividad permite reducir <strong>de</strong> 1’242,179 a sólo 8,566 los puntos, es <strong>de</strong>cir sólo el<br />

0.69 % <strong>de</strong> los puntos originalmente <strong>de</strong>tectados tienen cierta significancia. Estos puntos<br />

probablemente correspon<strong>de</strong>n a calcificaciones. Esta reducción significativa <strong>de</strong>l número<br />

<strong>de</strong> puntos es una característica que se presenta en el proceso <strong>de</strong> <strong>de</strong>tección <strong>de</strong> calcificaciones<br />

en mamografías, muy pocos <strong>de</strong> los puntos <strong>de</strong>tectados correspon<strong>de</strong>n a calcificaciones<br />

(verda<strong>de</strong>ros positivos). Hasta este momento no se ha hecho ninguna observación<br />

con respecto al área, el promedio <strong>de</strong> gris o el gradiente <strong>de</strong> gris <strong>de</strong>l punto.<br />

126


Selección <strong>de</strong> puntos (C)<br />

Los puntos cercanos pue<strong>de</strong>n tener su centro <strong>de</strong> masa alre<strong>de</strong>dor <strong>de</strong>l centroi<strong>de</strong> <strong>de</strong> una<br />

calcificación, pero no necesariamente coinci<strong>de</strong>n con ella, dado que el área, el promedio<br />

<strong>de</strong> gris o alguna otra característica pue<strong>de</strong> variar. Para seleccionar los puntos <strong>de</strong> interés<br />

se aplica una nueva actividad intentando reducir la cantidad <strong>de</strong> puntos cercanos a los<br />

252 puntos que se <strong>de</strong>sean i<strong>de</strong>ntificar.<br />

Con este propósito se aplican tres criterios <strong>de</strong> selección, los valores fueron calculados<br />

por experimentación tratando <strong>de</strong> i<strong>de</strong>ntificar los límites, <strong>de</strong> tal manera que se formen<br />

los 252 grupos <strong>de</strong> puntos cercanos y que cada grupo tenga al menos una calcificación:<br />

Área > 4 pixeles, Promedio <strong>de</strong> gris > 100, Gradiente > 3.2<br />

Estos criterios <strong>de</strong> selección permiten reducir aproximadamente en un 50 % el<br />

número <strong>de</strong> puntos. En el cuadro 8.8 se presentan 23 puntos <strong>de</strong> ejemplo, correspondientes<br />

a dos calcificaciones.<br />

Cuadro 8.8: Ejemplo <strong>de</strong> puntos seleccionados (x,y), cercanos al centroi<strong>de</strong> (rx, ry).<br />

punto calcifica características<br />

dog img x y rx ry max min mediaa prom std skew kurtosis<br />

1 209 617 506 617 507 169 161 165 164.81 2.07 0.07 2.53<br />

2 209 617 507 617 507 149 144 147 146.63 1.36 -0.30 2.89<br />

3 209 617 506 617 507 107 102 105 105.22 1.25 -0.86 3.40<br />

4 209 617 507 617 507 181 167 176 175.05 3.82 -0.49 2.49<br />

5 209 617 506 617 507 112 110 111 111.06 0.70 -0.08 2.15<br />

6 209 617 505 617 507 111 103 107 106.43 2.31 -0.01 2.09<br />

7 209 617 506 617 507 162 159 161 160.50 1.29 0.00 1.64<br />

8 209 618 507 617 507 134 126 132 131.56 2.06 -1.21 4.30<br />

9 209 617 506 617 507 163 159 161 161.00 1.41 0.00 2.04<br />

1 216 346 234 345 234 204 194 197 198.02 2.87 0.73 2.57<br />

2 216 345 235 345 234 204 193 198 198.57 3.06 0.34 2.20<br />

3 216 345 235 345 234 204 193 198 198.31 3.03 0.44 2.33<br />

4 216 345 235 345 234 204 191 197 197.48 3.39 0.31 2.48<br />

5 216 345 235 345 234 204 198 202 201.75 2.31 -0.48 1.88<br />

6 216 345 235 345 234 204 191 198 198.14 3.48 0.04 2.34<br />

7 216 345 235 345 234 204 191 197 197.44 3.56 0.16 2.42<br />

8 216 345 235 345 234 204 190 196 196.69 3.58 0.35 2.57<br />

9 216 346 234 345 234 204 191 197 197.02 3.30 0.39 2.81<br />

10 216 345 235 345 234 204 192 198 198.13 3.24 0.26 2.35<br />

11 216 344 236 345 234 204 191 197 196.78 3.61 0.35 2.42<br />

12 216 345 235 345 234 204 192 197 197.84 3.26 0.35 2.38<br />

127


Finalmente se llega a reducir el número <strong>de</strong> puntos <strong>de</strong> 8,566 a 4,612. Esto significa<br />

que una calcificación pue<strong>de</strong> estar representada en promedio por 18 puntos con diferentes<br />

valores en sus características.<br />

El número promedio <strong>de</strong> puntos por calcificación por cada imagen se presenta en la<br />

figura 8.14, la mamografía mdb216 tiene en promedio 26.5 puntos por cada calcificación<br />

y la mamografía mdb253 tiene 6.6 puntos. Hasta este momento, el porcentaje <strong>de</strong> puntos<br />

seleccionados, con respecto a los puntos extraídos originalmente es <strong>de</strong>l 0.37 %.<br />

Figura 8.14: Promedio <strong>de</strong> puntos por calcificación.<br />

Los 4,612 puntos seleccionados y cercanos a una calcificación serán usados como<br />

las calcificaciones verda<strong>de</strong>ras positivas en los siguientes experimentos, esto significa que<br />

solo el 0.37 % <strong>de</strong> los casos son verda<strong>de</strong>ros positivos (VP).<br />

128


Calcificaciones (D)<br />

Esta actividad se realiza con la finalidad <strong>de</strong> reducir el número <strong>de</strong> puntos i<strong>de</strong>ntificados<br />

en las activida<strong>de</strong>s anteriores a los 252 puntos <strong>de</strong> interés, la actividad tiene como<br />

entrada los 4,612 puntos seleccionados en la actividad anterior. El problema que se<br />

intenta resolver es calcular el valor <strong>de</strong> las características asociadas a las calcificaciones<br />

<strong>de</strong>s<strong>de</strong> los valores asociados a las características <strong>de</strong> sus puntos cercanos. Se pue<strong>de</strong> afirmar<br />

que los puntos i<strong>de</strong>ntificados son estimadores <strong>de</strong> la calcificación.<br />

Para propósitos <strong>de</strong> esta investigación se consi<strong>de</strong>ra que las características representativas<br />

<strong>de</strong> una calcificación correspon<strong>de</strong>n al promedio <strong>de</strong> las características <strong>de</strong> los<br />

puntos que la conforman. Esto se ejemplifica en la figura 8.15 don<strong>de</strong> se consi<strong>de</strong>ran<br />

los 226 puntos <strong>de</strong> la mamografía mdb219 que conforman 13 calcificaciones, en algunos<br />

casos el centroi<strong>de</strong> <strong>de</strong> los puntos coinci<strong>de</strong> con el centroi<strong>de</strong> <strong>de</strong> la calcificación.<br />

Figura 8.15: Puntos que conforman una calcificación (mdb219).<br />

Finalmente, la proporción <strong>de</strong>l número <strong>de</strong> calcificaciones i<strong>de</strong>ntificadas con respecto<br />

el número <strong>de</strong> puntos extraídos originalmente es <strong>de</strong> solo el 0.02 %, proporción bastante<br />

baja. Los resultados obtenidos serán usados en los siguientes experimentos. Dado que<br />

los puntos cercanos y seleccionados (4,612) tienen propieda<strong>de</strong>s bastante cercanas a las<br />

<strong>de</strong> su calcificación asociada, estos serán consi<strong>de</strong>rados en la etapa <strong>de</strong> muestreo como<br />

los verda<strong>de</strong>ros positivos. Esto implica que solo el 0.37 % <strong>de</strong> los puntos son verda<strong>de</strong>ros<br />

positivos.<br />

129


8.4.2. Preprocesamiento<br />

El problema a resolver en esta etapa es <strong>de</strong>terminar los valores <strong>de</strong> los parámetros<br />

<strong>de</strong> entrada <strong>de</strong> los tres procedimientos planteados: filtro mediana, imagen binaria y corte<br />

automático, entre ellos tenemos:<br />

Los parámetros a <strong>de</strong>terminar son:<br />

1. El tamaño <strong>de</strong>l filtro mediana<br />

2. El tamaño <strong>de</strong> las ventanas usadas para crear la imagen binaria<br />

3. El umbral usado para binarizar esta imagen.<br />

Tamaño <strong>de</strong>l filtro mediana<br />

El filtro mediana es usado normalmente para eliminar el ruido en las imágenes<br />

(Gonzalez [35]), por otro lado permite eliminar el ruido sin distorsionar los bor<strong>de</strong>s<br />

(Bovik [8]). El filtro mediana no permite que se generen valores irreales niveles <strong>de</strong> gris,<br />

dado que el valor que entrega es obtenido <strong>de</strong> alguno <strong>de</strong> los niveles <strong>de</strong> gris incluidos en<br />

la máscara.<br />

El tamaño <strong>de</strong> la máscara usada es <strong>de</strong> 3x3. Este tamaño permite que las propieda<strong>de</strong>s<br />

<strong>de</strong> contraste <strong>de</strong> un pixel sean modificados sólo por lo <strong>de</strong> sus vecinos. Máscaras <strong>de</strong> 5x5,<br />

7x7 o mayores pue<strong>de</strong>n eliminar características significativas en la imagen que justamente<br />

se requiere i<strong>de</strong>ntificar (ver la figura 8.16), don<strong>de</strong> se observa la pérdida <strong>de</strong> <strong>de</strong>talles cuando<br />

el tamaño <strong>de</strong> la máscara se incrementa. Por otro lado la resolución <strong>de</strong> las imágenes no<br />

permite que se usen máscaras más gran<strong>de</strong>s, así una máscara <strong>de</strong> 5x5 implica trabajar<br />

con un objeto <strong>de</strong> 1 milímetro <strong>de</strong> diámetro (la resolución <strong>de</strong> las imágenes es <strong>de</strong> 0.2<br />

mm/pixel).<br />

Lado <strong>de</strong> la ventana<br />

La imagen binaria es creada con la finalidad <strong>de</strong> eliminar regiones sin interés o<br />

regiones aisladas en la imagen. Dado que cada imagen es <strong>de</strong> 1024x1024, preprocesando<br />

las 322 imágenes con ventanas <strong>de</strong> 8x8 se obtienen 5,275,648 ventanas, con ventanas<br />

<strong>de</strong> 16x16 se obtienen 1,318,912 ventanas y con ventanas <strong>de</strong> 32x32 se obtienen 329,728<br />

ventanas.<br />

El tamaño <strong>de</strong> ventana consi<strong>de</strong>rado para este investigación es <strong>de</strong> 16x16 pixeles.<br />

Tamaños <strong>de</strong> ventana menores implican incrementar el tiempo <strong>de</strong> preprocesamiento<br />

pero consi<strong>de</strong>rando características bastante finas (ver la figura 8.17). Por otro lado,<br />

tamaños <strong>de</strong> ventana mayores implican reducir el tiempo <strong>de</strong> preprocesamiento pero<br />

eliminar <strong>de</strong>talles que pue<strong>de</strong>n ser significativos en la imagen.<br />

130


Figura 8.16: Resultados obtenidos aplicando diversos tamaños <strong>de</strong>l filtro mediana. a)<br />

imagen original, b) filtro <strong>de</strong> 3x3, c) filtro <strong>de</strong> 5x5, d) filtro <strong>de</strong> 7x7, e) filtro <strong>de</strong> 9x9, f)<br />

filtro <strong>de</strong> 11x11.<br />

Promedio mínimo <strong>de</strong> las ventanas<br />

Para <strong>de</strong>terminar el promedio mínimo don<strong>de</strong> colocar el umbral y <strong>de</strong>terminar qué ventanas<br />

correspon<strong>de</strong>n al fondo <strong>de</strong> la imagen y qué ventanas correspon<strong>de</strong>n a la imagen, se<br />

preparan cuatro histogramas que se presentan en las figuras 8.18, 8.19, 8.20 y 8.21. Se<br />

comparan los histogramas <strong>de</strong> los promedios <strong>de</strong> gris para cuatro tamaños <strong>de</strong> ventanas<br />

<strong>de</strong> 8x8, 16x16, 32x32 y 64x64 respectivamente. Dado que los valores <strong>de</strong> la frecuencia<br />

para el nivel <strong>de</strong> gris cero es bastante alto se usa el logaritmo <strong>de</strong> la frecuencia.<br />

Cuando se trabaja con ventanas <strong>de</strong> 8x8 y 16x16 se logra obtener un histograma<br />

con dos modas, que permite asignar el umbral visualmente, así para ventanas <strong>de</strong> 8x8 el<br />

umbral es aproximadamente 13, para ventanas <strong>de</strong> 16x16 el umbral es aproximadamente<br />

14. Para ventanas <strong>de</strong> 32x32 se i<strong>de</strong>ntifica más <strong>de</strong> 2 modas, situación que dificulta asignar<br />

el umbral; para ventanas <strong>de</strong> 64x64 no se logra i<strong>de</strong>ntificar el umbral. Consi<strong>de</strong>rando cierta<br />

holgura el umbral asignado es 15.<br />

131


Figura 8.17: Número <strong>de</strong> ventanas generadas en relación al tamaño <strong>de</strong> la ventana<br />

Figura 8.18: Histograma <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las ventanas, ventanas <strong>de</strong> 8x8.<br />

8.4.3. Detección <strong>de</strong> señales<br />

En esta etapa se <strong>de</strong>terminan y analizan los resultados <strong>de</strong>l proceso <strong>de</strong> <strong>de</strong>tección<br />

<strong>de</strong> potenciales calcificaciones (señales). Detectar las señales potencialmente verda<strong>de</strong>ras<br />

positivas es <strong>de</strong>terminante para el <strong>de</strong>sempeño <strong>de</strong> los procesos. A continuación se <strong>de</strong>tallan<br />

el procedimiento y el análisis <strong>de</strong> los resultados obtenidos. Los parámetros a <strong>de</strong>terminar<br />

son los siguientes:<br />

1. El tamaño <strong>de</strong> los filtros gaussianos componentes <strong>de</strong>l filtro DoG.<br />

2. El tamaño <strong>de</strong> la ventana que contiene la señal.<br />

3. El área mínima.<br />

4. El promedio <strong>de</strong> gris mínimo.<br />

5. El gradiente <strong>de</strong> gris mínimo (contraste absoluto).<br />

132


Figura 8.19: Histograma <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las ventanas, ventanas <strong>de</strong> 16x16.<br />

Figura 8.20: Histograma <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las ventanas, ventanas <strong>de</strong> 32x32.<br />

6. El umbral <strong>de</strong> binarización para cada filtro DoG.<br />

133


Figura 8.21: Histograma <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong> las ventanas, ventanas <strong>de</strong> 64x64.<br />

Tamaño <strong>de</strong>l filtro DoG<br />

El problema <strong>de</strong> <strong>de</strong>terminar un sólo tamaño <strong>de</strong> filtro DoG y un solo umbral <strong>de</strong><br />

binarización para <strong>de</strong>tectar la mayor cantidad <strong>de</strong> puntos en una mamografía no pue<strong>de</strong><br />

ser resuelto, dado que un filtro DoG, con <strong>de</strong>terminado umbral, permite <strong>de</strong>tectar un<br />

sólo rango <strong>de</strong> frecuencias <strong>de</strong>scartando el resto <strong>de</strong> rangos. La solución a este problema<br />

es usar una combinación <strong>de</strong> filtros en cascada. En esta investigación se usan 6 filtros<br />

gaussianos <strong>de</strong> tamaños 5x5, 7x7, 9x9, 11x11, 13x13 y 15x15, para construir 15 filtros<br />

DoG. Cada filtro DoG se obtiene combinando dos filtros gaussianos. Las <strong>de</strong>sviaciones<br />

estándar (σ) <strong>de</strong> los filtros gaussianos se presentan en la tabla 8.9. Las máscaras <strong>de</strong> los<br />

6 filtros gaussianos se presentan en las figuras 8.23, 8.24 y 8.25.<br />

Cuadro 8.9: Tamaño y <strong>de</strong>sviación estándar <strong>de</strong> filtros.<br />

filtro 5x5 7x7 9x9 11x11 13x13 15x15<br />

<strong>de</strong>sviación estándar 0.7619 0.8226 1.1863 1.6208 2.9866 4.3268<br />

Como se menciona en la sección 5.1, las propieda<strong>de</strong>s asociadas a la capacidad <strong>de</strong><br />

<strong>de</strong>tectar bandas <strong>de</strong> frecuencia <strong>de</strong> un filtro DoG <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la relación σ 2 /σ 1 , don<strong>de</strong><br />

σ 2 por lo general es mayor que σ 1 . En la figura 8.22 se presenta un cuadro don<strong>de</strong> se<br />

muestran los valores que toman σ 2 /σ 1 para cada combinación <strong>de</strong> filtros gaussianos. En<br />

la intercepción <strong>de</strong> las filas y columnas se presenta la relación σ 2 /σ 1 <strong>de</strong> los 15 filtros DoG<br />

generados. La relación σ 2 /σ 1 se incrementa a medida que crece el valor <strong>de</strong> σ 2 , aquel<br />

llega a tener valores mayores que 5 cuando σ 2 = 4,3268 y σ 1 = 0,7619 o σ 2 = 4,3268 y<br />

σ 1 = 0,8226.<br />

134


Figura 8.22: Relación σ 2 /σ 1 para 15 filtros DoG<br />

Figura 8.23: Máscara <strong>de</strong> filtros gaussianos <strong>de</strong> 5x5 y 7x7<br />

Tamaño <strong>de</strong> ventana que contiene la señal<br />

Determinar el tamaño <strong>de</strong> ventana que <strong>de</strong>be contener una calcificación potencial es<br />

importante en el <strong>de</strong>sarrollo <strong>de</strong> esta investigación. El tamaño <strong>de</strong>pen<strong>de</strong> <strong>de</strong> dos factores:<br />

1. El nivel <strong>de</strong> resolución <strong>de</strong> la imagen.<br />

La resolución <strong>de</strong> las imágenes usadas esta investigación es <strong>de</strong> 200 µ/pixel, es <strong>de</strong>cir<br />

que el lado <strong>de</strong> cada pixel es <strong>de</strong> 0.2 mm (ver la figura 8.26 a). Esto implica que el<br />

objeto más pequeño que pue<strong>de</strong> ser i<strong>de</strong>ntificado en la imagen es 0.04 mm 2 .<br />

2. El tamaño <strong>de</strong> los objetos a <strong>de</strong>tectar.<br />

Las calcificaciones potencialmente malignas tienen un diámetro entre 0.1 mm y<br />

1.0 mm. Las calcificaciones potencialmente benignas tiene diámetros mayores a<br />

1.0 mm. Estos rangos si bien son proporcionados por la BI-RADS, en los trabajos<br />

relacionados tienen amplia variación, por otro lado a medida que la resolución <strong>de</strong><br />

la imagen se mejora, las dimensiones pue<strong>de</strong>n ser consi<strong>de</strong>radas con mayor precisión.<br />

135


Figura 8.24: Máscara <strong>de</strong> filtros gaussianos <strong>de</strong> 9x9 y 11x11<br />

Figura 8.25: Máscara <strong>de</strong> filtros gaussianos <strong>de</strong> 13x13 y 15x15<br />

Teniendo esta información, se <strong>de</strong>termina el tamaño <strong>de</strong> ventana apropiado para<br />

<strong>de</strong>tectar potenciales calcificaciones en la imagen. Consi<strong>de</strong>rando que las calcificaciones<br />

potenciales pue<strong>de</strong>n tener 1 mm <strong>de</strong> lado, pero que en algunos casos pue<strong>de</strong>n tener una<br />

topología irregular, es necesario consi<strong>de</strong>rar un fondo para calcular el gradiente (bor<strong>de</strong>).<br />

El bor<strong>de</strong> fue colocado en 2 pixeles a cada lado <strong>de</strong> la calcificación, por lo tanto el tamaño<br />

final <strong>de</strong>l lado <strong>de</strong> la ventana es <strong>de</strong> 9 x 9 pixeles (ver la figura 8.26 b). En resumen,<br />

cinco pixeles para contener a la potencial calcificación y cuatro para contener el bor<strong>de</strong><br />

irregular.<br />

136


Figura 8.26: a). Tamaño <strong>de</strong> cada pixel, b). Tamaño <strong>de</strong> ventana y bor<strong>de</strong>.<br />

Área mínima<br />

El área permite preseleccionar puntos lo que implica reducir la gran cantidad <strong>de</strong><br />

puntos <strong>de</strong>tectados por los filtros DoG a sólo algunas potenciales calcificaciones. Su valor<br />

está dado por dos límites, el área mínima y el área máxima.<br />

1. Área mínima.<br />

El objeto <strong>de</strong> menor tamaño que pue<strong>de</strong> ser consi<strong>de</strong>rado dado la resolución <strong>de</strong> las<br />

imágenes usadas es <strong>de</strong> 0.2 mm <strong>de</strong> diámetro (ver la subsección 8.4.3), que es menor<br />

que el tamaño <strong>de</strong> una microcalcificación (1.0 mm <strong>de</strong> diámetro). Por lo tanto el<br />

área mínima es <strong>de</strong> 1 pixel.<br />

2. Área máxima.<br />

El límite superior <strong>de</strong>l área se consi<strong>de</strong>ra para eliminar los casos en que el algoritmo<br />

<strong>de</strong>tecte bor<strong>de</strong>s que pue<strong>de</strong>n aparecer como líneas en la imagen binarizada. El área<br />

máxima consi<strong>de</strong>rada es <strong>de</strong> 81 - 4 = 77 pixeles, (se eliminan los cuatro pixeles<br />

<strong>de</strong> las esquinas) es <strong>de</strong>cir el objeto más gran<strong>de</strong> que pue<strong>de</strong> ser i<strong>de</strong>ntificado por el<br />

algoritmo es <strong>de</strong> 3.08 mm 2 .<br />

Con el propósito <strong>de</strong> validar esta <strong>de</strong>cisión se usan los resultados obtenidos en el<br />

primer experimento (ver subsección 8.4.1). En la figura 8.27 se presenta la distribución<br />

<strong>de</strong> frecuencias <strong>de</strong>l área para aquellos puntos que correspon<strong>de</strong>n a puntos cercanos al<br />

centroi<strong>de</strong> <strong>de</strong> una calcificación, pero <strong>de</strong>l que no se pue<strong>de</strong> afirmar que son calcificaciones.<br />

En este caso el área se distribuye en el rango [1, 68], con una media <strong>de</strong> 14.7 pixeles.<br />

En la figura 8.28 se presenta la distribución <strong>de</strong> frecuencias <strong>de</strong>l área para aquellos<br />

puntos que correspon<strong>de</strong>n a puntos seleccionados y cercanos al centroi<strong>de</strong> una calcificación,<br />

<strong>de</strong> estos últimos se pue<strong>de</strong> afirmar que correspon<strong>de</strong>n a calcificaciones. En este<br />

137


Figura 8.27: Distribución <strong>de</strong> frecuencia <strong>de</strong>l área para puntos cercanos.<br />

caso el área se distribuye en el rango [4, 68], con una media <strong>de</strong> 21.8 pixeles. Consi<strong>de</strong>rando<br />

cierta holgura y dado estos dos resultados el área mínima se coloca en 1 y el área<br />

máxima en 77 pixeles.<br />

Figura 8.28: Distribución <strong>de</strong> frecuencia <strong>de</strong>l área para puntos seleccionados.<br />

Promedio <strong>de</strong> gris mínimo<br />

El promedio <strong>de</strong> gris mínimo fue obtenido luego <strong>de</strong> preparar una distribución <strong>de</strong><br />

frecuencias <strong>de</strong> los promedios <strong>de</strong> gris <strong>de</strong> los puntos cercanos a una calcificación pero <strong>de</strong><br />

los que no se pue<strong>de</strong> afirmar que correspon<strong>de</strong>n a una calcificación (ver la figura 8.29).<br />

En este caso el rango <strong>de</strong> gris se distribuye en el intervalo [11, 238], el promedio es 160,<br />

la curva presenta 3 modas aproximadamente en 10.5, 80 y 167. La primera moda se<br />

encuentra bastante separada <strong>de</strong> la ten<strong>de</strong>ncia <strong>de</strong>l promedio, probablemente corresponda<br />

a ruido extraído en el proceso, lo mismo suce<strong>de</strong> con la segunda moda.<br />

138


Figura 8.29: Distribución <strong>de</strong> frecuencia <strong>de</strong>l promedio <strong>de</strong> gris para puntos cercanos.<br />

En la figura 8.30 se presenta la distribución <strong>de</strong> frecuencias <strong>de</strong>l promedio <strong>de</strong> gris<br />

para aquellos puntos que correspon<strong>de</strong>n a puntos seleccionados y cercanos al centroi<strong>de</strong><br />

<strong>de</strong> una calcificación, <strong>de</strong> ellos se pue<strong>de</strong> afirmar que correspon<strong>de</strong>n a una calcificación. Si<br />

se consi<strong>de</strong>ra sólo esta distribución <strong>de</strong> frecuencias, el rango <strong>de</strong> gris se reduce al intervalo<br />

[102, 237], el promedio es 164. La forma <strong>de</strong> la curva se aproxima a una distribución<br />

normal. Consi<strong>de</strong>rando cierta holgura el valor <strong>de</strong> gris mínimo que se asigna es 100. Con<br />

este valor se asegura incluir las calcificaciones en imágenes <strong>de</strong> baja <strong>de</strong>nsidad.<br />

Figura 8.30: Distribución <strong>de</strong> frecuencia <strong>de</strong>l promedio <strong>de</strong> gris para puntos seleccionados.<br />

Gradiente <strong>de</strong> gris mínimo (contraste absoluto)<br />

El gradiente <strong>de</strong> gris mínimo fue obtenido luego <strong>de</strong> preparar una distribución <strong>de</strong><br />

frecuencias <strong>de</strong>l gradiente <strong>de</strong> gris <strong>de</strong> los puntos cercanos a una calcificación pero <strong>de</strong> los<br />

que no se pue<strong>de</strong> afirmar que correspon<strong>de</strong>n a una calcificación (ver la figura 8.31). En<br />

139


este caso el gradiente <strong>de</strong> gris se distribuye en el intervalo [-7.1, 55.4], el promedio es<br />

8.9, la curva tiene la moda alre<strong>de</strong>dor <strong>de</strong> 6.5.<br />

Figura 8.31: Distribución <strong>de</strong> frecuencia <strong>de</strong>l gradiente <strong>de</strong> gris para puntos cercanos.<br />

En la figura 8.32 se presenta la distribución <strong>de</strong> frecuencias <strong>de</strong>l gradiente <strong>de</strong> gris<br />

para aquellos puntos que correspon<strong>de</strong>n a puntos seleccionados y cercanos al centroi<strong>de</strong><br />

<strong>de</strong> una calcificación, <strong>de</strong> ellos se pue<strong>de</strong> afirmar que correspon<strong>de</strong>n a una calcificación. En<br />

este caso el gradiente <strong>de</strong> gris se distribuye en el intervalo [3, 56] y el promedio es 9.66,<br />

se pue<strong>de</strong> observar que la curva se acumula alre<strong>de</strong>dor <strong>de</strong> 6.5. Por lo tanto el gradiente<br />

<strong>de</strong> gris mínimo asignado para esta investigación es 3, que correspon<strong>de</strong> al valor mínimo<br />

<strong>de</strong>l segundo intervalo, esto implica que todas las calcificaciones tienen gradiente <strong>de</strong> gris<br />

mayor que cero.<br />

Figura 8.32: Distribución <strong>de</strong> frecuencia <strong>de</strong>l gradiente <strong>de</strong> gris para puntos seleccionados.<br />

140


Umbral <strong>de</strong> binarización<br />

Este experimento intenta i<strong>de</strong>ntificar el mejor umbral <strong>de</strong> binarización para cada<br />

filtro DoG. Calcular el umbral <strong>de</strong> binarización es el problema que mayor cantidad <strong>de</strong><br />

experimentos ha implicado en esta investigación, dado que pequeñas variaciones en el<br />

or<strong>de</strong>n <strong>de</strong> 0.1 pue<strong>de</strong>n variar el <strong>de</strong>sempeño <strong>de</strong>l filtro DoG.<br />

En las figuras 8.33, 8.34, 8.35, 8.36 y 8.37 se presentan 5 gráficas correspondientes<br />

al <strong>de</strong>sempeño <strong>de</strong> quince filtros DoG.<br />

Figura 8.33: Porcentaje <strong>de</strong> éxito según el umbral, filtro gausiano <strong>de</strong> 5x5.<br />

Figura 8.34: Porcentaje <strong>de</strong> éxito según el umbral, filtro gausiano <strong>de</strong> 7x7.<br />

El objetivo <strong>de</strong> estas curvas es i<strong>de</strong>ntificar en qué valor <strong>de</strong>l umbral <strong>de</strong> binarización<br />

(para cada filtro DoG) se logra el mejor <strong>de</strong>sempeño. En las gráficas se presenta el<br />

141


porcentaje <strong>de</strong> puntos <strong>de</strong>tectados, los porcentajes son obtenidos calculando para cada<br />

imagen, filtro y umbral el número <strong>de</strong> calcificaciones <strong>de</strong>tectadas.<br />

Las gráficas intentan <strong>de</strong>terminar el <strong>de</strong>sempeño <strong>de</strong> cada filtro DoG ante variaciones<br />

en el umbral <strong>de</strong> binarización. La figura 8.34 es representativa, las curvas se inician con<br />

<strong>de</strong>sempeños bajos <strong>de</strong>l or<strong>de</strong>n <strong>de</strong>l 10 % para luego crecer hasta llegar a un máximo,<br />

los máximo se logran para valores <strong>de</strong>l umbral menores que 2, excepto para los fitros<br />

DoG (11x11,15x15) y (13x131,15x15). Eventualmente el <strong>de</strong>sempeño pue<strong>de</strong> mejorar en<br />

algunos filtros (7x7,9x9) y (7x7,11x11) y en otros mantenerse estables (5x5,15x15),<br />

(7x7,15x15) y (9x9,15x15).<br />

Figura 8.35: Porcentaje <strong>de</strong> éxito según el umbral, filtro gausiano <strong>de</strong> 9x9.<br />

Figura 8.36: Porcentaje <strong>de</strong> éxito según el umbral, filtro gausiano <strong>de</strong> 11x11.<br />

142


Figura 8.37: Porcentaje <strong>de</strong> éxito según el umbral, filtro gausiano <strong>de</strong> 13x13.<br />

Estos valores i<strong>de</strong>ntificados para el umbral permiten maximizar el <strong>de</strong>sempeño <strong>de</strong><br />

cada filtro DoG trabajando individualmente. Los valores i<strong>de</strong>ntificados para cada uno<br />

<strong>de</strong> los 15 filtros DoG se presentan en el cuadro 8.10.<br />

Cuadro 8.10: Umbral <strong>de</strong> binarización calculado para 15 filtros DoG.<br />

N DoG σ 2 /σ 1 eficacia umbral<br />

1 (5x5,7x7) 1.080 74 % 0.50<br />

2 (5x5,9x9) 1.557 72 % 1.00<br />

3 (5x5,11x11) 2.127 67 % 1.50<br />

4 (5x5,13x13) 3.920 69 % 1.50<br />

5 (5x5,15x15) 5.679 58 % 3.25<br />

6 (7x7,9x9) 1.442 60 % 0.50<br />

7 (7x7,11x11) 1.970 58 % 1.00<br />

8 (7x7,13x13) 3.631 60 % 1.75<br />

9 (7x7,15x15) 5.260 54 % 4.25<br />

10 (9x9,11x11) 1.366 61 % 0.25<br />

11 (9x9,13x13) 2.518 63 % 0.50<br />

12 (9x9,15x15) 3.647 55 % 3.75<br />

13 (11x11,13x13) 1.843 67 % 0.50<br />

14 (11x11,15x15) 2.670 53 % 3.25<br />

15 (13x13,15x15) 1.449 43 % 2.50<br />

Una observación interesante es analizar el <strong>de</strong>sempeño <strong>de</strong> 2, 3 o más filtros DoG<br />

trabajando en conjunto (en cascada) e i<strong>de</strong>ntificar para cada conjunto los valores <strong>de</strong>l<br />

umbral <strong>de</strong> binarización que maximizan el <strong>de</strong>sempeño global. Un análisis <strong>de</strong> la complejidad<br />

<strong>de</strong>l problema implica que se <strong>de</strong>be <strong>de</strong> analizar ∑ i=6 6!<br />

i=1<br />

= 56 simulaciones <strong>de</strong>l<br />

m!(6−m)!<br />

algoritmo, este tiempo es bastante gran<strong>de</strong>, dado que implica volver a <strong>de</strong>tectar puntos<br />

143


<strong>de</strong>s<strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> imágenes. Una solución aproximada es consi<strong>de</strong>rar que los umbrales<br />

<strong>de</strong> binarización que maximizan el <strong>de</strong>sempeño conjunto <strong>de</strong> los filtros en cascada<br />

correspon<strong>de</strong> a los umbrales que maximizan el <strong>de</strong>sempeño individual.<br />

El problema que se presenta al aplicar la solución planteada es que se limita<br />

el <strong>de</strong>sempeño <strong>de</strong> los filtros DoG, dado que se estaría <strong>de</strong>tectando un sólo rango <strong>de</strong><br />

frecuencia, si bien el rango asignado es el que maximiza el número <strong>de</strong> puntos <strong>de</strong>tectados,<br />

se pue<strong>de</strong> dar el caso que alguno <strong>de</strong> los puntos requiera ser <strong>de</strong>tectado con otro rango <strong>de</strong><br />

frecuencias. Aplicar el filtro DoG permite <strong>de</strong>tectar las potenciales calcificaciones en una<br />

mamografía, pero tiene la <strong>de</strong>sventaja <strong>de</strong> que es bastante sensible a la relación σ 2 /σ 1 y<br />

al umbral <strong>de</strong> binarización.<br />

En los experimentos se intentó i<strong>de</strong>ntificar el mejor filtro DoG que <strong>de</strong>termine la<br />

mayor cantidad <strong>de</strong> potenciales calcificaciones en todas las imágenes, este objetivo no se<br />

pudo lograr dado que se pue<strong>de</strong>n presentar situaciones como las que se presentan en el<br />

cuadro 8.11. Este cuadro muestra en la mamografía mdb248 cuatro calcificaciones y en<br />

la mamografía mdb253 cinco calcificaciones, en las columnas se presentan los 15 filtros<br />

y en las celdas el número <strong>de</strong> veces que la calcificación es <strong>de</strong>tectada, se <strong>de</strong>be <strong>de</strong> tener en<br />

cuenta que se evalúan 51 umbrales para cada filtro y que dos puntos están cercanos si<br />

la distancia entre ellos es menor que 2.4 pixeles.<br />

Cuadro 8.11: Número <strong>de</strong> puntos VP <strong>de</strong>tectados por cada filtro DoG, consi<strong>de</strong>rando 51<br />

umbrales <strong>de</strong> binarización.<br />

imagenX Y 5x<br />

7<br />

5x<br />

9<br />

5x<br />

11<br />

5x<br />

13<br />

5x<br />

15<br />

7x<br />

9<br />

248 371 422 9 13 14 14 8 4 5 9 11 4 6 13 5 13 9<br />

248 373 429 2 4 3 4 3 1 1 1 1 0 1 1 1 0 0<br />

248 381 420 4 2 3 0 0 0 0 1 0 1 2 0 3 0 0<br />

248 381 425 10 15 17 17 11 6 9 17 11 4 10 12 7 13 13<br />

253 728 459 4 6 6 9 9 2 2 5 7 2 4 5 2 4 2<br />

253 731 454 1 1 1 2 2 1 1 0 1 0 0 0 0 1 1<br />

253 752 459 1 1 1 2 1 0 0 0 0 0 1 0 1 0 0<br />

253 760 462 2 4 6 6 10 2 2 3 10 1 2 8 1 8 6<br />

253 762 456 1 2 2 2 0 1 0 0 0 0 0 0 2 0 0<br />

7x<br />

11<br />

7x<br />

13<br />

7x<br />

15<br />

9x<br />

11<br />

9x<br />

13<br />

9x<br />

15<br />

11x<br />

13<br />

11x<br />

15<br />

13x<br />

15<br />

Por ejemplo el filtro DoG (5x5, 13x13), <strong>de</strong>tecta 14 veces el punto (371, 422), 4<br />

veces el punto (373, 429) y 17 veces el punto (381, 425), pero ninguna vez el punto<br />

(381, 420), por otro lado el filtro DoG (11x11, 15x15), <strong>de</strong>tecta 13 veces el punto (371,<br />

422), 13 veces el punto (381, 425) pero ninguna vez los puntos (373, 429) y (381, 420).<br />

Este comportamiento se presenta recurrentemente para el resto <strong>de</strong> los puntos como se<br />

observa para la mamografía mdb253. Esta situación hace más difícil <strong>de</strong>terminar un sólo<br />

umbral <strong>de</strong> binarización para cada filtro DoG.<br />

144


De estos resultados se pue<strong>de</strong> llegar a las siguientes conclusiones:<br />

1. No es posible i<strong>de</strong>ntificar un sólo filtro DoG, trabajando individualmente con los<br />

51 umbrales <strong>de</strong> binarización, tal que permita i<strong>de</strong>ntificar la mayor cantidad <strong>de</strong><br />

potenciales calcificaciones en una imagen.<br />

2. No es posible <strong>de</strong>terminar el mejor umbral <strong>de</strong> binarización para cada filtro DoG,<br />

trabajando individualmente, tal que permita i<strong>de</strong>ntificar la mayor cantidad <strong>de</strong><br />

potenciales calcificaciones en una imagen.<br />

3. No es posible <strong>de</strong>terminar un sólo tamaño <strong>de</strong> filtro DoG y un solo umbral <strong>de</strong> binarización<br />

para <strong>de</strong>tectar la mayor cantidad <strong>de</strong> puntos en una mamografía, dado que<br />

<strong>de</strong>terminado umbral permite <strong>de</strong>tectar un sólo rango <strong>de</strong> frecuencias <strong>de</strong>scartando<br />

el resto <strong>de</strong> rangos.<br />

Estas conclusiones permiten plantear dos alternativas <strong>de</strong> solución.<br />

1. Filtros DoGs.<br />

Un método práctico para i<strong>de</strong>ntificar la mayor cantidad <strong>de</strong> potenciales calcificaciones<br />

es colocando los filtros DoG en cascada, es <strong>de</strong>cir que los puntos <strong>de</strong>terminados<br />

por un filtro DoG sean sumandos a los puntos <strong>de</strong>terminados por el siguiente<br />

filtro DoG.<br />

2. Umbral <strong>de</strong> binarización.<br />

Dado que no ha sido posible <strong>de</strong>terminar un sólo umbral <strong>de</strong> binarización que<br />

maximice el <strong>de</strong>sempeño <strong>de</strong> cada filtros DoG, se propone variar el umbral <strong>de</strong> binarización<br />

en el intervalo [0, 5] (variación <strong>de</strong> 0.1), generando en total 51 umbrales<br />

que verificar.<br />

Esto implica que a cada imagen se <strong>de</strong>be <strong>de</strong> aplicar 15 filtros DoG y 15*51 = 765<br />

veces el umbral <strong>de</strong> binarización, esta cantidad es bastante gran<strong>de</strong>, pero permite <strong>de</strong>tectar<br />

la mayor cantidad <strong>de</strong> potenciales calcificaciones.<br />

145


Capacidad <strong>de</strong> <strong>de</strong>tección <strong>de</strong> potenciales calcificaciones<br />

Para tener una i<strong>de</strong>a aproximada <strong>de</strong> la capacidad <strong>de</strong> <strong>de</strong>tección <strong>de</strong> potenciales calcificaciones<br />

<strong>de</strong> cada filtro DoG consi<strong>de</strong>rando que son usados individualmente se diseño<br />

un experimento. El experimento intenta relacionar el porcentaje <strong>de</strong> potenciales calcificaciones<br />

verda<strong>de</strong>ras positivas con la relación σ 2 /σ 1 . Cada punto que se presenta en la<br />

figura 8.38 es obtenido <strong>de</strong> la siguiente manera:<br />

Figura 8.38: Capacidad <strong>de</strong> <strong>de</strong>tección <strong>de</strong> potenciales calcificaciones<br />

1. Se aplica los procedimientos <strong>de</strong> filtro DoG, binarización, etiquetado y segmentación<br />

sin aplicar ninguna técnica <strong>de</strong> selección para las 22 imágenes con calcificaciones.<br />

2. Se calcula el número <strong>de</strong> puntos <strong>de</strong>ntro <strong>de</strong> la región especificada por la base <strong>de</strong><br />

datos <strong>de</strong> la MIAS (ver los cuadros 8.5, 8.6 y 8.7), estos son consi<strong>de</strong>rados como los<br />

verda<strong>de</strong>ros positivos.<br />

3. Se calcula el porcentaje <strong>de</strong> éxito (puntos i<strong>de</strong>ntificados por cada filtro DoG entre<br />

puntos verda<strong>de</strong>ros positivos).<br />

Cómo se observa en la figura a medida que crece la relación σ 2 /σ 1 la capacidad<br />

promedio para <strong>de</strong>tectar potenciales calcificaciones se reduce. Este cuadro no afirma<br />

nada acerca <strong>de</strong> si los puntos i<strong>de</strong>ntificados por un filtro DoG contienen alguno <strong>de</strong> los<br />

puntos i<strong>de</strong>ntificados por un filtro DoG <strong>de</strong> menor capacidad <strong>de</strong> <strong>de</strong>tección.<br />

146


8.4.4. Muestreo<br />

Para facilitar la aplicación <strong>de</strong> los experimentos que más a<strong>de</strong>lante se <strong>de</strong>tallan, se<br />

proce<strong>de</strong> a muestrear los datos obtenidos en la subsección 8.4.1 (puntos y calcificaciones).<br />

El muestreo tiene por objetivo, estudiar las relaciones existentes entre la distribución<br />

<strong>de</strong> la población total y las distribuciones <strong>de</strong> sus muestras. Tiene la ventaja <strong>de</strong> reducir<br />

el costo computacional y por lo tanto reducir el tiempo <strong>de</strong> procesamiento.<br />

Los datos están conformados por 1’242,179 registros, <strong>de</strong> los cuales 1’237,567 registros<br />

correspon<strong>de</strong>n a la clase no es calcificación (verda<strong>de</strong>ros negativos) y 4,612 registros<br />

correspon<strong>de</strong>n a la clase es calcificación (verda<strong>de</strong>ros positivos). Un aspecto importante<br />

<strong>de</strong> los datos es que sólo el 0.37 % <strong>de</strong> los casos son verda<strong>de</strong>ros positivos y el 99.63 % <strong>de</strong><br />

los casos son verda<strong>de</strong>ros negativos<br />

Para propósitos <strong>de</strong> evaluar el <strong>de</strong>sempeño <strong>de</strong>l sistema según el tamaño <strong>de</strong> muestra<br />

y la proporción <strong>de</strong> verda<strong>de</strong>ros positivos se proce<strong>de</strong> a realizar dos etapas <strong>de</strong> muestreo:<br />

1. Muestreo exploratorio.<br />

Se utiliza para explorar el comportamiento <strong>de</strong> los datos ante diferentes tamaños<br />

<strong>de</strong> muestra, es usada para calcular la ganancia <strong>de</strong> información e inferir el tamaño<br />

<strong>de</strong> la muestra que se usará para entrenar la red neuronal más a<strong>de</strong>lante.<br />

La técnica utilizada es el muestreo aleatorio estratificado sin reposición, para esto<br />

se forman 54 muestras (ver el cuadro 8.12), dos variables son aplicadas, el tamaño<br />

<strong>de</strong> la muestra y el porcentaje <strong>de</strong> verda<strong>de</strong>ros positivos en la muestra, el tamaño <strong>de</strong><br />

la muestra se varia entre 1,000 y 100,000 registros y la proporción <strong>de</strong> verda<strong>de</strong>ros<br />

positivos se varia entre el 1 % y el 75 %. En la tabla se pue<strong>de</strong> observar que cuando<br />

el número <strong>de</strong> verda<strong>de</strong>ros positivos en la muestra es mayor que 4,612, este número<br />

se mantiene y se complementa con casos verda<strong>de</strong>ros negativos.<br />

Cuadro 8.12: Número <strong>de</strong> casos VP en cada muestra.<br />

registros<br />

proporción <strong>de</strong> Verda<strong>de</strong>ros Positivos<br />

1.0 % 5.0 % 10.0 % 25.0 % 50.0 % 75.0 %<br />

1,000 10 50 100 250 500 750<br />

2,500 25 125 250 625 1250 1875<br />

5,000 50 250 500 1250 2500 3750<br />

7,500 75 375 750 1875 3750 4612<br />

10,000 100 500 1000 2500 4612 4612<br />

25,000 250 1250 2500 4612 4612 4612<br />

50,000 500 2500 4612 4612 4612 4612<br />

75,000 750 3750 4612 4612 4612 4612<br />

100,000 1000 4612 4612 4612 4612 4612<br />

147


2. Muestreo experimental.<br />

Este muestreo se implementó luego <strong>de</strong> analizar los primeros resultados obtenidos<br />

con la ganancia <strong>de</strong> información (ver la página 157) y las primeras evaluaciones <strong>de</strong><br />

la red neuronal (ver la página 162). Para el muestreo se proce<strong>de</strong> <strong>de</strong> la siguiente<br />

manera:<br />

a) Se divi<strong>de</strong> el universo <strong>de</strong> la población en dos grupos con la misma proporción<br />

<strong>de</strong> verda<strong>de</strong>ros positivos.<br />

b) Del primer grupo se extraen varios conjuntos <strong>de</strong> 10,000 registros con el 25 %<br />

<strong>de</strong> verda<strong>de</strong>ros positivos que serán usados como datos <strong>de</strong> entrenamiento <strong>de</strong><br />

la red. La <strong>de</strong>cisión <strong>de</strong> usar 10,000 registros se obtiene luego <strong>de</strong> analizar los<br />

resultados obtenidos en las figuras 8.44 y 8.49 don<strong>de</strong> se observa que el comportamiento<br />

para este tamaño <strong>de</strong> muestra es representativa. La proporción<br />

<strong>de</strong> verda<strong>de</strong>ros positivos fue <strong>de</strong>terminado luego <strong>de</strong> analizar las figuras 8.45 y<br />

8.50 don<strong>de</strong> se observa que para este porcentaje se obtiene buenos resultados<br />

experimentales.<br />

c) Del segundo grupo se extraen varios conjuntos <strong>de</strong> 100,000 registros con 1 %<br />

<strong>de</strong> verda<strong>de</strong>ros positivos.<br />

8.4.5. Extracción <strong>de</strong> características<br />

El procedimiento <strong>de</strong> extracción <strong>de</strong> características se aplica a todos los puntos<br />

<strong>de</strong>tectados en la subsección 8.4.1. En las tablas 8.13 y 8.14, se presenta seis estadísticos<br />

para cada característica, los estadísticos son: el valor mínimo, el valor maximo, el<br />

promedio, la <strong>de</strong>sviación estándar (STD) la asimetría y la mediana, los estadísticos permiten<br />

tener una i<strong>de</strong>a inicial <strong>de</strong> la distribución <strong>de</strong> los datos. Esta información será usada<br />

para el proceso <strong>de</strong> selección <strong>de</strong> características.<br />

El cuadro 8.13 presenta los estadísticos para los 1’242,179 puntos extraídos originalmente,<br />

a los cuales no se les aplicó ningún proceso <strong>de</strong> selección, el cuadro 8.14,<br />

presenta los estadísticos para los 8,566 puntos cercanos a una calcificación, a los cuales<br />

no se les aplicó ningún proceso <strong>de</strong> selección pero se encuentran a una distancia menor<br />

<strong>de</strong> 2.4 pixeles <strong>de</strong>l centroi<strong>de</strong> <strong>de</strong> una calcificación y por lo tanto tienen alta probabilidad<br />

<strong>de</strong> ser calcificaciones.<br />

148


Cuadro 8.13: Estadísticos para las 47 características extraídas <strong>de</strong>s<strong>de</strong> puntos (1’242,179<br />

puntos).<br />

N característica mín. máx. prom. STD asim. mediana<br />

Contraste <strong>de</strong> la señal.<br />

1 Gris máximo 0.0 242.0 141.66 56.35 -0.60 152.00<br />

2 Gris mínimo 242.0 137.20 56.47 -0.53 146.00<br />

3 Gris mediana 0.0 242.0 139.63 56.34 -0.57 149.00<br />

4 Gris promedio 0.0 242.0 139.56 56.34 -0.57 148.77<br />

5 STD <strong>de</strong>l gris 0.0 32.5 1.42 1.42 2.46 1.12<br />

6 Skewness <strong>de</strong>l gris -7.0 6.5 -0.11 0.50 -0.25 0.00<br />

7 Kurtosis <strong>de</strong>l gris 0.0 50.0 1.75 1.18 2.64 1.90<br />

Contraste <strong>de</strong>l fondo.<br />

1 Gris máximo <strong>de</strong>l fondo 0.0 250.0 142.53 55.62 -0.59 152.00<br />

2 Gris mínimo <strong>de</strong>l fondo 0.0 238.0 125.45 57.73 -0.43 132.50<br />

3 Gris mediana <strong>de</strong>l fondo 0.0 239.0 135.64 56.16 -0.51 144.00<br />

4 Gris promedio 0.0 239.0 134.99 56.35 -0.51 143.49<br />

5 STD <strong>de</strong>l fondo 0.0 107.0 4.52 3.91 7.69 3.63<br />

6 Skewness <strong>de</strong>l fondo -7.6 8.8 -0.31 0.49 0.89 -0.31<br />

7 Kurtosis <strong>de</strong>l fondo 0.0 78.0 2.54 1.09 27.29 2.35<br />

Contraste relativo.<br />

1 Contraste absoluto -31.9 104.1 4.58 3.56 6.67 3.99<br />

2 Contraste relativo -1.0 1.0 0.02 0.05 -4.01 0.02<br />

3 Contraste proporcional 0.0 85.7 1.06 0.22 83.02 1.03<br />

Características <strong>de</strong> forma.<br />

1 Área 1.0 73.0 13.48 13.16 1.24 9.00<br />

2 Área Convexa 1.0 81.0 16.30 16.41 1.21 10.00<br />

3 Área <strong>de</strong>l fondo 8.0 80.0 67.52 13.16 -1.24 72.00<br />

4 Perímetro 0.0 42.0 9.16 7.28 0.66 8.00<br />

5 Diámetro máximo 0.0 11.3 3.55 2.74 0.67 3.00<br />

6 Diámetro mínimo 0.0 11.3 1.92 1.45 1.09 2.00<br />

7 DCE 1.1 9.6 3.65 1.96 0.53 3.39<br />

8 Longitud <strong>de</strong> fibra 0.0 9.9 2.82 2.18 0.60 2.55<br />

9 Ancho <strong>de</strong> fibra 0.0 18.5 3.63 1.81 -0.11 3.53<br />

10 Curl 0.0 4.8 1.15 0.54 -0.50 1.18<br />

11 Factor <strong>de</strong> forma 0.0 6.3 2.02 1.65 1.30 1.62<br />

12 Redon<strong>de</strong>z 0.0 22.9 1.26 0.93 0.96 1.11<br />

13 Elongación 1 0.0 1.0 0.56 0.32 -0.19 0.55<br />

14 Elongación 2 0.0 7.2 1.63 1.29 1.26 1.33<br />

15 Excentricidad 0.0 1.0 0.67 0.32 -1.36 0.77<br />

16 Relación <strong>de</strong> aspecto 0.0 11.3 1.76 1.39 2.04 1.41<br />

17 Compacidad1 0.0 4.8 1.01 0.49 -0.54 1.06<br />

18 Compacidad 2 0.0 37.5 6.65 4.48 0.45 6.40<br />

19 Compacidad 3 0.0 2.0 0.64 0.53 1.30 0.52<br />

149


N característica mín. máx. prom. STD asim. mediana<br />

20 Soli<strong>de</strong>z 0.3 1.5 0.89 0.11 -0.46 0.88<br />

Momentos <strong>de</strong> la secuencia <strong>de</strong>l contorno.<br />

1 MSC 1 0.0 0.7 0.24 0.18 0.12 0.26<br />

2 MSC 2 0.0 0.6 0.15 0.13 1.06 0.14<br />

3 MSC 3 0.0 0.8 0.29 0.20 0.04 0.31<br />

4 MSC 4 0.0 0.8 0.23 0.19 0.48 0.24<br />

5 Promedio <strong>de</strong> radios 0.0 4.4 1.47 1.04 0.44 1.29<br />

6 STD <strong>de</strong> radios 0.0 1.8 0.47 0.40 0.68 0.39<br />

Momentos geométricos invariantes.<br />

1 Momento invariante I 0.0 0.9 0.17 0.09 0.76 0.17<br />

2 Momento invariante II 0.0 0.6 0.02 0.04 7.51 0.01<br />

3 Momento invariante III 0.0 0.6 0.00 0.003 33.15 0.00<br />

4 Momento invariante IV 0.0 0.1 0.00 0.001 15.27 0.00<br />

Cuadro 8.14: Estadísticos para las 47 características extraídas <strong>de</strong>s<strong>de</strong> puntos cercanos<br />

(8,566 puntos).<br />

N característica mín. máx. prom. STD asim. mediana<br />

Contraste <strong>de</strong> la señal.<br />

1 Gris máximo 12.0 241.0 164.53 41.43 -1.18 170.00<br />

2 Gris mínimo 9.0 238.0 156.55 41.76 -0.94 163.00<br />

3 Gris mediana 11.0 238.0 160.62 41.18 -1.09 167.00<br />

4 Gris promedio 11.0 238.0 160.60 41.22 -1.09 167.00<br />

5 STD <strong>de</strong>l gris 0.0 16.0 2.43 2.67 1.66 2.00<br />

6 Skewness <strong>de</strong>l gris -3.0 4.0 -0.03 0.53 0.09 0.00<br />

7 Kurtosis <strong>de</strong>l gris 0.0 20.0 1.68 1.22 1.39 2.00<br />

Contraste <strong>de</strong>l fondo.<br />

1 Gris máximo <strong>de</strong>l fondo 12.0 245.0 162.11 40.94 -1.12 168.00<br />

2 Gris mínimo <strong>de</strong>l fondo 0.0 234.0 139.29 43.25 -0.67 144.00<br />

3 Gris mediana <strong>de</strong>l fondo 0.0 237.0 152.33 41.08 -0.88 158.00<br />

4 Gris promedio 1.1 236.6 151.59 41.26 -0.90 157.11<br />

5 STD <strong>de</strong>l fondo 0.5 69.5 6.00 4.23 4.22 5.07<br />

6 Skewness <strong>de</strong>l fondo -2.4 2.6 -0.20 0.50 0.29 -0.23<br />

7 Kurtosis <strong>de</strong>l fondo 1.0 10.3 2.50 0.72 2.11 2.34<br />

Contraste relativo.<br />

1 Contraste absoluto -7.1 55.4 8.97 6.16 1.89 7.38<br />

2 Contraste relativo 0.0 0.8 0.03 0.03 6.87 0.02<br />

3 Contraste proporcional 1.0 10.1 1.07 0.16 43.48 1.05<br />

Características <strong>de</strong> forma.<br />

150


N característica mín. máx. prom. STD asim. mediana<br />

1 Área 1.0 68.0 14.74 15.18 1.11 9.00<br />

2 Área Convexa 1.0 77.0 17.57 18.39 1.04 10.00<br />

3 Área <strong>de</strong>l fondo 13.0 80.0 66.27 15.18 -1.11 72.00<br />

4 Perímetro 0.0 36.0 9.33 7.98 0.55 8.00<br />

5 Diámetro máximo 0.0 11.0 3.58 3.03 0.59 3.00<br />

6 Diámetro mínimo 0.0 8.0 2.04 1.74 1.00 1.00<br />

7 DCE 1.1 9.3 3.72 2.21 0.49 3.38<br />

8 Longitud <strong>de</strong> fibra 0.0 10.0 2.93 2.40 0.53 3.00<br />

9 Ancho <strong>de</strong> fibra 0.0 15.0 3.58 2.08 -0.05 3.00<br />

10 Curl 0.0 3.0 1.06 0.65 0.28 1.00<br />

11 Factor <strong>de</strong> forma 0.0 6.0 1.95 1.75 1.15 1.00<br />

12 Redon<strong>de</strong>z 0.0 9.0 1.34 1.12 0.78 1.00<br />

13 Elongación 1 0.0 1.0 0.63 0.48 -0.52 1.00<br />

14 Elongación 2 0.0 5.0 1.58 1.41 1.33 1.00<br />

15 Excentricidad 0.0 1.0 0.76 0.43 -1.20 1.00<br />

16 Relación <strong>de</strong> aspecto 0.0 11.0 1.58 1.39 1.95 1.00<br />

17 Compacidad1 0.0 3.0 1.02 0.61 -0.01 1.00<br />

18 Compacidad 2 0.0 28.0 6.38 4.71 0.40 7.00<br />

19 Compacidad 3 0.0 2.0 0.55 0.68 0.83 0.00<br />

20 Soli<strong>de</strong>z 0.0 1.0 1.00 0.01 -92.55 1.00<br />

Momentos <strong>de</strong> la secuencia <strong>de</strong>l contorno.<br />

1 MSC 1 0.0 1.0 0.04 0.21 4.42 0.00<br />

2 MSC 2 0.0 1.0 0.01 0.12 8.13 0.00<br />

3 MSC 3 0.0 1.0 0.11 0.32 2.47 0.00<br />

4 MSC 4 0.0 1.0 0.05 0.22 4.01 0.00<br />

5 Promedio <strong>de</strong> radios 0.0 4.0 1.59 1.14 0.40 1.00<br />

6 STD <strong>de</strong> radios 0.0 2.0 0.39 0.50 0.58 0.00<br />

Momentos geométricos invariantes.<br />

1 Momento invariante I 0.0 1.0 0.01 0.10 10.34 0.00<br />

2 Momento invariante II 0.0 0.6 0.02 0.05 7.92 0.01<br />

3 Momento invariante III 0.0 0.1 0.00 0.00 8.54 0.00<br />

4 Momento invariante IV 0.0 0.0 0.00 0.00 16.76 0.00<br />

151


8.4.6. Selección <strong>de</strong> características<br />

Correlación entre características<br />

Analizar la matriz correlación permite obtener una medida <strong>de</strong> relación entre características<br />

e i<strong>de</strong>ntificar si están correlacionadas, como conclusión se pue<strong>de</strong> <strong>de</strong>terminar<br />

si alguna <strong>de</strong> ellas pue<strong>de</strong> ser eliminada. Se usan tres criterios para eliminar una variable:<br />

1. Nivel <strong>de</strong> correlación 1. Posiblemente se ha usado la misma fórmula para el cálculo<br />

<strong>de</strong> ambas características. Se pue<strong>de</strong> eliminar alguna <strong>de</strong> ellas.<br />

2. Nivel <strong>de</strong> correlación -1. Posiblemente se ha usado una fórmula <strong>de</strong> la forma: C 1 =<br />

a − bC 2 , don<strong>de</strong> a y b, son constantes fijas. Se pue<strong>de</strong> eliminar alguna <strong>de</strong> ellas.<br />

3. Nivel <strong>de</strong> correlación cercano a -1 o 1. Existe correlación estadística entre ellas,<br />

el criterio para eliminar alguna <strong>de</strong> ellas <strong>de</strong>pen<strong>de</strong>rá <strong>de</strong> la ganancia <strong>de</strong> información<br />

que proporciona (se elimina la que proporciona menor ganancia <strong>de</strong> información).<br />

De las 47 características, 29 tienen alta correlación (más <strong>de</strong> -0.9 o menos <strong>de</strong> 0.9),<br />

para facilitar su exposición se les presenta en 5 grupos. Las tablas y los gráficos fueron<br />

obtenidos <strong>de</strong>s<strong>de</strong> una muestra <strong>de</strong> 5,000 puntos (ver la subsección 8.4.4). En todos los<br />

casos se incluye una variable adicional, la clase a la que pertenece cada señal (1: es<br />

calcificación, 0: no es calcificación).<br />

1. Características <strong>de</strong> contraste.<br />

En el cuadro 8.15 se presenta la matriz <strong>de</strong> correlación entre características. Se<br />

consi<strong>de</strong>ra los casos con correlación mayor que 0.97. En el caso <strong>de</strong> el promedio <strong>de</strong><br />

gris y la mediana el coeficiente llega a ser 1, por lo que se pue<strong>de</strong> eliminar alguna <strong>de</strong><br />

ellas, en este caso se elimina la mediana. El mismo análisis se hace al promedio<br />

y la mediana <strong>de</strong> gris <strong>de</strong>l fondo, en este caso se elimina la mediana <strong>de</strong>l fondo.<br />

Cuadro 8.15: Matriz <strong>de</strong> correlación. Características <strong>de</strong> contraste.<br />

clase máx mín medianaprom máx mín mediana prom<br />

fondo fondo fondo<br />

clase 0.155 0.108 0.130 0.131 0.122 0.078 0.103 0.101<br />

máx 0.155 0.994 0.998 0.999 0.995 0.980 0.995 0.994<br />

mín 0.108 0.994 0.998 0.998 0.995 0.987 0.998 0.998<br />

mediana 0.130 0.998 0.998 1.000 0.997 0.984 0.998 0.998<br />

prom 0.131 0.999 0.998 1.000 0.997 0.985 0.998 0.998<br />

máx fondo 0.122 0.995 0.995 0.997 0.997 0.977 0.996 0.996<br />

mín fondo 0.078 0.980 0.987 0.984 0.985 0.977 0.988 0.992<br />

med-fondo 0.103 0.995 0.998 0.998 0.998 0.996 0.988 0.999<br />

prom 0.101 0.994 0.998 0.998 0.998 0.996 0.992 0.999<br />

152


Existe alta correlación entre las características relacionadas con los estadísticos<br />

extraídos <strong>de</strong>s<strong>de</strong> los niveles <strong>de</strong> gris <strong>de</strong> la calcificación (señal) o <strong>de</strong>l fondo, en la<br />

figura 8.39 se presenta un diagrama <strong>de</strong> cajas don<strong>de</strong> se pue<strong>de</strong> observar la relación<br />

entre los estadísticos nivel <strong>de</strong> gris máximo, mínimo, mediana, promedio <strong>de</strong> la<br />

calcificación y el nivel <strong>de</strong> gris máximo, mínimo, mediana y promedio <strong>de</strong>l fondo.<br />

Figura 8.39: Diagrama <strong>de</strong> cajas. Características <strong>de</strong> contraste<br />

2. Características <strong>de</strong> forma (área y perímetro).<br />

Existe alta correlación entre el área, el área <strong>de</strong>l fondo, el área convexa y el<br />

perímetro (ver la matriz 8.16). El coeficiente <strong>de</strong> correlación entre el área y el<br />

área <strong>de</strong> fondo es -1, por lo que se pue<strong>de</strong> eliminar una <strong>de</strong> ellas, en este caso se<br />

elimina el área <strong>de</strong>l fondo. Posiblemente el área convexa se pueda eliminar dado<br />

que el coeficiente <strong>de</strong> correlación con el área es 0.989. En la figura 8.40 se presenta<br />

el diagrama <strong>de</strong> cajas que confirma estas afirmaciones.<br />

Cuadro 8.16: Matriz <strong>de</strong> correlación. Características <strong>de</strong> forma (área y perímetro).<br />

clase área área área perímetro<br />

fondo<br />

conv<br />

clase -0.190 0.190 0.180 0.188<br />

área fondo -0.190 -1.000 -0.989 -0.956<br />

área 0.190 -1.000 0.989 0.956<br />

área convexa 0.180 -0.989 0.989 0.968<br />

perímetro 0.188 -0.956 0.956 0.968<br />

153


Figura 8.40: Diagrama <strong>de</strong> cajas. Características <strong>de</strong> área y perímetro<br />

3. Características <strong>de</strong> forma 1.<br />

Las características diámetro máximo, diámetro circular equivalente, longitud <strong>de</strong><br />

fibra, ancho <strong>de</strong> fibra, compacidad 2 , promedio <strong>de</strong> radios <strong>de</strong>l contorno, y <strong>de</strong>sviación<br />

<strong>de</strong>l radios <strong>de</strong>l contorno, no están relacionadas teóricamente, excepto que correspon<strong>de</strong>n<br />

a características <strong>de</strong> forma, pero existe correlación estadísticas entre ellas<br />

(ver la matriz 8.17 y la figura 8.41), el análisis para <strong>de</strong>terminar qué características<br />

se eliminan <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l criterio mencionado al inicio. Por otro lado en la matriz se<br />

pue<strong>de</strong> observar que la correlación que existe entre alguna <strong>de</strong> estas características<br />

y la clase a la que pertenece la señal es cercana a cero.<br />

Cuadro 8.17: Matriz <strong>de</strong> correlación. Características <strong>de</strong> forma 1.<br />

clase<br />

diám<br />

máx<br />

DCE<br />

long<br />

fibra<br />

ancho<br />

fibra<br />

compacidad<br />

2<br />

prom<br />

radios<br />

STD<br />

radios<br />

clase 0.176 0.203 0.193 0.188 0.164 0.199 0.135<br />

diám máx 0.176 0.936 0.933 0.810 0.902 0.957 0.888<br />

DCE 0.203 0.936 0.979 0.869 0.874 0.991 0.796<br />

long fibra 0.193 0.933 0.979 0.797 0.876 0.976 0.820<br />

ancho fibra 0.188 0.810 0.869 0.797 0.795 0.880 0.660<br />

compacidad 2 0.164 0.902 0.874 0.876 0.795 0.900 0.914<br />

prom radios 0.199 0.957 0.991 0.976 0.880 0.900 0.846<br />

STD radios 0.135 0.888 0.796 0.820 0.660 0.914 0.846<br />

154


Figura 8.41: Diagrama <strong>de</strong> cajas. Características <strong>de</strong> forma 1<br />

4. Características <strong>de</strong> forma 2.<br />

Estas características preten<strong>de</strong>n medir la relación entre el diámetro máximo y el<br />

diámetro diámetro mínimo o entre el alto y el ancho <strong>de</strong> la señal (ver la matriz <strong>de</strong><br />

correlación 8.18).<br />

Cuadro 8.18: Matriz <strong>de</strong> correlación. Características <strong>de</strong> forma 2.<br />

clase<br />

factor<br />

forma<br />

redon<strong>de</strong>z<br />

elongación<br />

2<br />

compacidad<br />

1<br />

compacidad<br />

3<br />

clase -0.077 -0.023 -0.073 0.035 -0.077<br />

factor forma -0.077 0.780 0.982 0.753 1.000<br />

redon<strong>de</strong>z -0.023 0.780 0.765 0.935 0.780<br />

elongación 2 -0.073 0.982 0.765 0.744 0.982<br />

compacidad 1 0.035 0.753 0.935 0.744 0.752<br />

compacidad 3 -0.077 1.000 0.780 0.982 0.752<br />

En la matriz se pue<strong>de</strong> observar que el coeficiente <strong>de</strong> correlación entre el factor <strong>de</strong><br />

forma y la compacidad 3 es 1, esto se <strong>de</strong>be a que la fórmula usada en sus cálculos<br />

es la misma, por lo que se pue<strong>de</strong> eliminar una <strong>de</strong> ellas, en este caso se eliminan<br />

la compacidad 3 . Por otro lado en la matriz se pue<strong>de</strong> observar que la correlación<br />

entre algunas <strong>de</strong> las características y la clase a la que pertenece cada señal es<br />

negativa pero bastante cercana a cero. Estas afirmación se apoyan por el diagama<br />

<strong>de</strong> cajas (ver la figura 8.42).<br />

155


Figura 8.42: Diagrama <strong>de</strong> cajas. Características <strong>de</strong> forma 2<br />

5. Características <strong>de</strong>l momento <strong>de</strong> la secuencia <strong>de</strong> contorno.<br />

Estas características se obtienen <strong>de</strong>s<strong>de</strong> los radios calculados como las distancia<br />

entre centroi<strong>de</strong> y el bor<strong>de</strong> <strong>de</strong> la calcificación. Se pue<strong>de</strong> observar en la matriz que<br />

el menor coeficiente <strong>de</strong> correlación entre los cuatro momentos es 0.817, pero por<br />

otro lado la correlación con la clase es bastante cercana a cero. La característica<br />

<strong>de</strong>sviación estándar <strong>de</strong> los radios se adiciona para analizar los coeficientes <strong>de</strong><br />

correlación.<br />

Cuadro 8.19: Matriz <strong>de</strong> correlación. Características <strong>de</strong>l momento <strong>de</strong> secuencia <strong>de</strong><br />

contorno.<br />

clase<br />

STD<br />

radios<br />

MSC<br />

1<br />

MSC<br />

2<br />

MSC<br />

3<br />

MSC<br />

4<br />

clase 0.135 0.066 0.027 0.072 0.054<br />

STD <strong>de</strong> radios 0.135 0.749 0.532 0.773 0.656<br />

MSC 1 0.066 0.749 0.817 0.995 0.890<br />

MSC 2 0.027 0.532 0.817 0.830 0.962<br />

MSC 3 0.072 0.773 0.995 0.830 0.910<br />

MSC 4 0.054 0.656 0.890 0.962 0.910<br />

En conclusión, el análisis <strong>de</strong> la matriz <strong>de</strong> correlación permite i<strong>de</strong>ntificar cuatro<br />

pares <strong>de</strong> características que tienen correlación 1 o -1, una <strong>de</strong> cada par se pue<strong>de</strong> eliminar:<br />

El promedio <strong>de</strong> gris y la mediana <strong>de</strong> los niveles <strong>de</strong> gris <strong>de</strong> la señal, se elimina la<br />

mediana<br />

156


Figura 8.43: Diagrama <strong>de</strong> cajas. Características <strong>de</strong>l momento <strong>de</strong> la secuencia <strong>de</strong> contorno<br />

El promedio <strong>de</strong> gris y la mediana <strong>de</strong> los niveles <strong>de</strong> gris <strong>de</strong>l fondo <strong>de</strong> la señal, se<br />

elimina la mediana <strong>de</strong>l fondo.<br />

El factor <strong>de</strong> forma y la compacidad 3 , se elimina la compacidad 3 .<br />

El área y el área <strong>de</strong>l fondo, dado que el área <strong>de</strong>l fondo se calcula <strong>de</strong>s<strong>de</strong> el área (la<br />

relación es inversa), se elimina el área <strong>de</strong>l fondo.<br />

Algoritmo <strong>de</strong> búsqueda subóptima<br />

Una <strong>de</strong>rivación <strong>de</strong>l algoritmo <strong>de</strong> búsqueda secuencial hacia a<strong>de</strong>lante es aplicado<br />

para <strong>de</strong>terminar el subconjunto <strong>de</strong> características que permite optimizar el <strong>de</strong>sempeño<br />

<strong>de</strong> una clasificador. Se calcula la ganancia <strong>de</strong> información para el total <strong>de</strong> las 47 características<br />

extraídas (se incluye las 4 eliminadas) y luego se les or<strong>de</strong>na <strong>de</strong> mayor a menor.<br />

Los resultados <strong>de</strong> este cálculo se presentan en las figuras 8.44 y 8.45, don<strong>de</strong> se presenta<br />

la ganancia <strong>de</strong> información según el tamaño <strong>de</strong> la muestra y según el porcentaje <strong>de</strong><br />

verda<strong>de</strong>ros positivos (VP).<br />

Analizamos los resultados obtenidos en función a tres variables, el número <strong>de</strong><br />

intervalos <strong>de</strong> discretización, el tamaño <strong>de</strong> la muestra usada para entrenar el clasificador<br />

y el porcentaje <strong>de</strong> VP en la muestra:<br />

1. Número <strong>de</strong> intervalos <strong>de</strong> discretización.<br />

Para calcular la ganancia <strong>de</strong> información es necesario discretizar las variables.<br />

Analizando para diferentes números <strong>de</strong> intervalo se obtiene las mismas ganancias<br />

157


<strong>de</strong> información, por lo que se pue<strong>de</strong> concluir que el número <strong>de</strong> intervalos no influye<br />

en el cálculo <strong>de</strong> la ganancia <strong>de</strong> información, posiblemente usando otra técnica <strong>de</strong><br />

discretización se pue<strong>de</strong> llegar a otros resultados, en esta investigación no se ha<br />

probado con otra técnica <strong>de</strong> discretización. El rango <strong>de</strong> cada variable fue dividido<br />

en 10 segmentos <strong>de</strong> igual tamaño (ver la subsección 6.2.3).<br />

2. Tamaño <strong>de</strong> la muestra.<br />

El tamaño <strong>de</strong> la muestra influye en la ganancia <strong>de</strong> información <strong>de</strong> una característica,<br />

a medida que se incrementa el tamaño <strong>de</strong> la muestra la ganancia <strong>de</strong><br />

información se reduce, esto se pue<strong>de</strong> observa en la figura 8.44, don<strong>de</strong> para muestras<br />

pequeñas la ganancia <strong>de</strong> información es gran<strong>de</strong>, pero a medida que el tamaño<br />

<strong>de</strong> la muestra se incrementa la ganancia <strong>de</strong> información se reduce, por otro lado<br />

existe un grupo <strong>de</strong> características don<strong>de</strong> la ganancia <strong>de</strong> información es 0.1, no <strong>de</strong>pendiendo<br />

<strong>de</strong>l tamaño <strong>de</strong> la muestra. Una observación importante en esta gráfica<br />

es que el número <strong>de</strong> registros VP está truncado a 4,612, dado que es el límite <strong>de</strong><br />

registros disponibles.<br />

Figura 8.44: Ganancia <strong>de</strong> información promedio, según el tamaño <strong>de</strong> la muestra<br />

En el eje <strong>de</strong> las abscisas se presentan las características y en el eje <strong>de</strong> las or<strong>de</strong>nadas<br />

la ganancia <strong>de</strong> información, cada curva representa el promedio <strong>de</strong> las ganancias<br />

obtenidas para el tamaño indicando. Las características fueron or<strong>de</strong>nadas en función<br />

a la ganancia <strong>de</strong> información promedio.<br />

158


3. Porcentaje <strong>de</strong> verda<strong>de</strong>ros positivos en la muestra(VP).<br />

El número <strong>de</strong> VP también influye en la ganancia <strong>de</strong> información <strong>de</strong> cada característica,<br />

a medida que la proporción <strong>de</strong> VP se incrementa la ganancia <strong>de</strong> información<br />

promedio también se incrementa, en la figura 8.45, se pue<strong>de</strong> observar que las<br />

cuatro primeras características (), obtienen ganancias <strong>de</strong> información superiores<br />

al 0.1 cuando el porcentaje <strong>de</strong> VP en la muestra es mayor al 10 %.<br />

Figura 8.45: Ganancia <strong>de</strong> información promedio, según el porcentaje <strong>de</strong> VP<br />

El problema que se preten<strong>de</strong> resolver es <strong>de</strong>terminar el or<strong>de</strong>n que las características<br />

<strong>de</strong>ben entrar a un algoritmo <strong>de</strong> selección <strong>de</strong> características y establecer qué subconjunto<br />

<strong>de</strong> ellas permite maximizar el <strong>de</strong>sempeño <strong>de</strong> un clasificador. El análisis inicial realizado<br />

indica que los resultados son in<strong>de</strong>pendientes <strong>de</strong>l número <strong>de</strong> intervalos <strong>de</strong> discretización<br />

y <strong>de</strong>pendientes <strong>de</strong>l tamaño <strong>de</strong> la muestra y al porcentaje <strong>de</strong> VP en la muestra.<br />

La muestra i<strong>de</strong>al es aquella que se diseña con la misma proporción <strong>de</strong> VP que<br />

la población, pero no se lograría obtener la sensibilidad necesaria para <strong>de</strong>terminar<br />

qué características influyen en los resultados <strong>de</strong>l clasificador. Para muestras don<strong>de</strong> el<br />

porcentaje <strong>de</strong> VP es menos <strong>de</strong>l 1 % la ganancia <strong>de</strong> información tien<strong>de</strong> a cero a pesar<br />

que el tamaño <strong>de</strong> la muestra se incrementa.<br />

La ganancia <strong>de</strong> información para 25,000 registros se pue<strong>de</strong> observar en la figura<br />

8.46. Para el 1 % <strong>de</strong> VP la ganancia <strong>de</strong> información que se obtiene es bastante baja, pero<br />

cuando el porcentaje se incrementa la ganancia <strong>de</strong> información se incrementa. Como<br />

dato complementario en la figura se presenta el coeficiente <strong>de</strong> correlación obtenido entre<br />

la características y la clase (es calcificación o no es calcificación). Se pue<strong>de</strong> observar<br />

159


que no existe algún nivel <strong>de</strong> relación entre la ganancia <strong>de</strong> información obtenida y el<br />

coeficiente <strong>de</strong> correlación.<br />

Figura 8.46: Ganancias <strong>de</strong> información según el porcentaje <strong>de</strong> VP para una muestra<br />

<strong>de</strong>l 25,000 registros<br />

De estos resultados se obtiene el or<strong>de</strong>n en que estas características pue<strong>de</strong>n ingresar<br />

al clasificador (ver el cuadro 8.20), adicional a la información proporcionada se presenta<br />

el coeficiente <strong>de</strong> correlación con respecto a la clase.<br />

El cuadro presenta las 47 características inicialmente extraídas y se pue<strong>de</strong> confirmar<br />

que la ganancia <strong>de</strong> información <strong>de</strong> las cuatro características eliminadas es menor<br />

que la <strong>de</strong> sus pares, así la ganancia <strong>de</strong> información <strong>de</strong> la mediana es menor que <strong>de</strong>l<br />

promedio <strong>de</strong> gris, <strong>de</strong> la mediana <strong>de</strong>l fondo es menor que <strong>de</strong>l promedio <strong>de</strong> gris <strong>de</strong>l fondo,<br />

<strong>de</strong> la compacidad 3 es menor que <strong>de</strong>l factor <strong>de</strong> forma, pero la ganancia <strong>de</strong> información<br />

<strong>de</strong>l área <strong>de</strong>l fondo es igual a la ganancia <strong>de</strong> información <strong>de</strong>l área <strong>de</strong> la calcificación.<br />

Cuadro 8.20: Ganancia <strong>de</strong> información y coeficiente <strong>de</strong> correlación.<br />

No característica 10 % VP ganancia promedio Coef.Corr. eliminar<br />

46 Momento invariante III 0.375 0.305 -0.01<br />

47 Momento invariante IV 0.359 0.292 -0.01<br />

11 Gris promedio 0.300 0.242 0.11<br />

4 Gris promedio 0.270 0.224 0.14<br />

45 Momento invariante II 0.201 0.162 -0.01<br />

15 Contraste absoluto 0.187 0.156 0.41<br />

160


No característica 10 % VP ganancia promedio Coef.Corr. eliminar<br />

5 STD <strong>de</strong>l gris 0.137 0.115 0.43<br />

12 STD <strong>de</strong>l fondo 0.097 0.081 0.16<br />

16 Contraste relativo 0.084 0.070 0.03<br />

1 Gris máximo 0.080 0.066 0.16<br />

9 Gris mínimo <strong>de</strong>l fondo 0.075 0.062 0.08<br />

10 Gris mediana <strong>de</strong>l fondo 0.066 0.055 0.11 si<br />

3 Gris mediana 0.065 0.055 0.14 si<br />

35 Compacidad 2 0.061 0.054 0.15<br />

42 Promedio <strong>de</strong> radios 0.061 0.053 0.19<br />

7 Kurtosis <strong>de</strong>l gris 0.061 0.051 0.13<br />

6 Skewness <strong>de</strong>l gris 0.059 0.050 0.06<br />

8 Gris máximo <strong>de</strong>l fondo 0.058 0.048 0.13<br />

2 Gris mínimo 0.057 0.047 0.11<br />

17 Contraste proporcional 0.055 0.047 0.01<br />

31 Elongación 2 0.052 0.045 -0.08<br />

28 Factor <strong>de</strong> forma 0.050 0.044 -0.07<br />

24 DCE 0.050 0.043 0.19<br />

20 Área <strong>de</strong>l fondo 0.050 0.043 -0.18 si<br />

18 Área 0.050 0.043 0.18<br />

25 Longitud <strong>de</strong> fibra 0.050 0.043 0.19<br />

36 Compacidad 3 0.047 0.041 -0.08 si<br />

21 Perímetro 0.048 0.041 0.18<br />

19 Área Convexa 0.047 0.041 0.17<br />

26 Ancho <strong>de</strong> fibra 0.044 0.039 0.17<br />

22 Diámetro máximo 0.044 0.037 0.17<br />

27 Curl 0.041 0.035 0.05<br />

29 Redon<strong>de</strong>z 0.039 0.034 -0.02<br />

33 Relación <strong>de</strong> aspecto 0.039 0.033 0.08<br />

30 Elongación 1 0.038 0.032 0.02<br />

34 Compacidad 1 0.037 0.032 0.03<br />

43 STD <strong>de</strong> radios 0.031 0.027 0.12<br />

23 Diámetro mínimo 0.031 0.026 0.17<br />

44 Momento invariante I 0.031 0.026 0.08<br />

41 MSC 4 0.030 0.026 0.05<br />

39 MSC 2 0.030 0.025 0.03<br />

40 MSC 3 0.029 0.025 0.06<br />

38 MSC 1 0.027 0.023 0.06<br />

13 Skewness <strong>de</strong>l fondo 0.023 0.021 0.06<br />

37 Soli<strong>de</strong>z 0.021 0.018 -0.08<br />

14 Kurtosis <strong>de</strong>l fondo 0.019 0.017 -0.03<br />

32 Excentricidad 0.019 0.017 0.05<br />

161


Clasificador neuronal<br />

Luego <strong>de</strong> obtener la lista or<strong>de</strong>nada <strong>de</strong> características en función a la ganancia <strong>de</strong><br />

información calculada, se proce<strong>de</strong> a entrenar un clasificador y calcular su <strong>de</strong>sempeño.<br />

Implementar un clasificador neuronal <strong>de</strong> retropropagación para i<strong>de</strong>ntificar calcificaciones<br />

implica resolver tres problemas:<br />

1. Arquitectura <strong>de</strong> la red.<br />

El clasificador implementado es una red neuronal <strong>de</strong> retropropagación <strong>de</strong> 3 capas<br />

(ver la sección 6.3), don<strong>de</strong> el número <strong>de</strong> neuronas <strong>de</strong> la capa <strong>de</strong> entrada es igual a<br />

número <strong>de</strong> características a probar, el número <strong>de</strong> neuronas <strong>de</strong> la capa intermedia<br />

es <strong>de</strong>pendiente <strong>de</strong>l número <strong>de</strong> neuronas <strong>de</strong> la capa <strong>de</strong> entrada y la capa <strong>de</strong> salida<br />

tiene una sola neurona. La función <strong>de</strong> transferencia usada en todos los casos es<br />

la tangente hiperbólica (ver la subsección 6.3.2).<br />

2. Número <strong>de</strong> neuronas <strong>de</strong> la capa intermedia.<br />

Se preten<strong>de</strong> calcular el número apropiado <strong>de</strong> neuronas <strong>de</strong> la capa intermedia que<br />

permita maximizar el <strong>de</strong>sempeño <strong>de</strong>l clasificador, para cada grupo <strong>de</strong> características.<br />

Determinar este número pue<strong>de</strong> tomar un tiempo bastante gran<strong>de</strong>, dado que<br />

se <strong>de</strong>be probar una serie <strong>de</strong> mo<strong>de</strong>los variando el número <strong>de</strong> neuronas <strong>de</strong> la capa<br />

intermedia para cada combinación <strong>de</strong> características. Dado esta situación se tomo<br />

la <strong>de</strong>cisión <strong>de</strong> que su número fuese la mitad <strong>de</strong> las neuronas <strong>de</strong> la capa <strong>de</strong> entrada,<br />

siendo el mínimo seis neuronas (ver la figura 8.47).<br />

Figura 8.47: Ejemplos <strong>de</strong> arquitecturas <strong>de</strong> la red neuronal.<br />

3. Indicador <strong>de</strong> la eficacia <strong>de</strong>l clasificador.<br />

Otro problema a resolver es <strong>de</strong>terminar el indicador <strong>de</strong> la eficacia <strong>de</strong>l clasificador,<br />

convencionalmente la eficacia se pue<strong>de</strong> <strong>de</strong>terminar <strong>de</strong> la siguiente forma, tomando<br />

en consi<strong>de</strong>ración la figura 8.9:<br />

%error =<br />

F P +F N<br />

V P +V N+F P +F N<br />

%éxito =<br />

V P +V N<br />

V P +V N+F P +F N<br />

162


Pero en el caso particular <strong>de</strong>l problema planteado el número <strong>de</strong> VP es bastante<br />

reducido en las muestras y el número <strong>de</strong> VN es bastante gran<strong>de</strong> (ver la subsección<br />

8.4.1), por lo que el indicador <strong>de</strong> %éxito, es afectado por la cantidad <strong>de</strong> VN.<br />

Por otro lado, consi<strong>de</strong>rando sólo los casos: realmente(+) y realmente(-), se pue<strong>de</strong><br />

i<strong>de</strong>ntificar las siguientes relaciones:<br />

Realmente (+) = VP + FN<br />

Realmente ( - ) = FP + VN<br />

En la figura 8.48 se presenta el <strong>de</strong>sempeño <strong>de</strong> veinte clasificadores para las primeras<br />

veinte características; cada punto <strong>de</strong> la curva fue obtenido entrenando un red neuronal<br />

don<strong>de</strong> el número <strong>de</strong> las neuronas <strong>de</strong> entrada es igual al número <strong>de</strong> características hasta<br />

el punto en mención, el siguiente punto incluye una características más como entrada<br />

al clasificador.<br />

El <strong>de</strong>sempeño se evalúa mediante seis indicadores: el porcentaje <strong>de</strong> VP, el porcentaje<br />

<strong>de</strong> VN, el porcentaje <strong>de</strong> FN, el porcentaje <strong>de</strong> FP, el porcentaje <strong>de</strong> error y <strong>de</strong><br />

éxito <strong>de</strong>l clasificador. Se preten<strong>de</strong> maximizar el número <strong>de</strong> VP, minimizar el número <strong>de</strong><br />

FN y minimizar el error <strong>de</strong>l clasificador. La muestra usada para entrenar el clasificador<br />

fue <strong>de</strong> 10,000 registros don<strong>de</strong> el 25 % correspon<strong>de</strong>n a VP.<br />

Figura 8.48: Porcentaje <strong>de</strong> indicadores <strong>de</strong> éxito y error <strong>de</strong>l clasificador, muestra <strong>de</strong><br />

10,000 registros (25 % <strong>de</strong> VP)<br />

Analizando el gráfico se pue<strong>de</strong> observar que las tres primeras características (momento<br />

invariante III, momento invariante IV y el gris promedio <strong>de</strong>l fondo) permiten<br />

163


obtener un error <strong>de</strong>l 25 %, pero el porcentaje <strong>de</strong> VP es bastante reducido (menos <strong>de</strong>l<br />

3 %), por otro lado las cuatro primeras características permiten reducir el error al 16 % e<br />

incrementar el porcentaje <strong>de</strong> VP el 53 %, a partir <strong>de</strong> este punto las curvas se mantienen<br />

aproximadamente constates, lográndose un siguiente reducción en el error (al 14.0 %)<br />

y un incremento en el porcentaje <strong>de</strong> VP hasta el 59.6 % cuando el clasificador tiene las<br />

siete primeras características como entradas. Posteriormente las curvas se mantienen<br />

relativamente constantes.<br />

Para evaluar <strong>de</strong>sempeño <strong>de</strong>l clasificador ante variaciones en el tamaño <strong>de</strong> la muestra<br />

se presenta la figura 8.49 don<strong>de</strong> se observa que ante incrementos en el tamaño <strong>de</strong> la<br />

muestra el porcentaje <strong>de</strong> VP <strong>de</strong>tectados se reduce, llegando a mantenerse en más <strong>de</strong>l<br />

50 % para muestras <strong>de</strong> 25,000 registros. Por otro lado se observa que las curvas tien<strong>de</strong>n<br />

a tener un valor constante a partir <strong>de</strong> la novena característica, este valor es estable<br />

para muestras gran<strong>de</strong>s, para muestras pequeñas se observa variaciones significativas.<br />

Dado estos resultados algunos <strong>de</strong> los experimentos se efectuán con muestras <strong>de</strong> 10,000<br />

registros.<br />

Figura 8.49: Comparación <strong>de</strong>l porcentaje <strong>de</strong> VP para diferentes tamaños <strong>de</strong> muestra.<br />

Para evaluar el <strong>de</strong>sempeño ante variaciones en el porcentaje <strong>de</strong> los VP en la muestra<br />

se presenta la figura 8.50, se pue<strong>de</strong> observar que ante incrementos en el porcentaje<br />

<strong>de</strong> VP en la muestra el porcentaje VP <strong>de</strong>tectados por el clasificador se incrementa,<br />

inclusive se llega al 68 % para muestras don<strong>de</strong> el 25 % correspon<strong>de</strong> a VP. El uso <strong>de</strong><br />

mayores proporciones <strong>de</strong> VP no se consi<strong>de</strong>ró en la simulación <strong>de</strong>l clasificador dado los<br />

tiempos bastante onerosos <strong>de</strong> cálculo. Según estos resultados el porcentaje <strong>de</strong> VP que<br />

se usará en algunos experimentos es <strong>de</strong>l 25 %.<br />

164


Figura 8.50: Comparación <strong>de</strong>l porcentaje <strong>de</strong> VP para diferentes porcentajes <strong>de</strong> VP en<br />

la muestra.<br />

Analizando las figuras 8.49 y 8.50 se pue<strong>de</strong> observar que el porcentaje <strong>de</strong> error<br />

<strong>de</strong>l clasificador se reduce lentamente hasta que se consi<strong>de</strong>ra la décima características<br />

manteniéndose constante a pesar <strong>de</strong> adicionar nuevas características al clasificador.<br />

Situación semejante suce<strong>de</strong> con el porcentaje <strong>de</strong> VP, al inicio no se incrementa, luego<br />

se incrementa significativamente manteniéndose constante con algunos pequeños incrementos,<br />

esta situación se presenta a pesar <strong>de</strong> adicionar nuevas características al<br />

clasificador. El error se reduce hasta el 10 % y el porcentaje <strong>de</strong> VP se incrementa hasta<br />

el 54 %.<br />

Por otro lado se hace evi<strong>de</strong>nte que algunas características al parecer no aportan<br />

significativamente en el <strong>de</strong>sempeño <strong>de</strong>l clasificador. Así las tres primeras características<br />

mantienen el porcentaje VP bastante cercanos a cero. Pero al ingresar el promedio <strong>de</strong><br />

gris, el porcentaje <strong>de</strong> VP se incrementa y el error se reduce, indicando que posiblemente,<br />

el or<strong>de</strong>n i<strong>de</strong>ntificado no es el correcto y que si se intercambia el or<strong>de</strong>n el <strong>de</strong>sempeño<br />

mejore.<br />

Posiblemente esta situación <strong>de</strong> <strong>de</strong>be a que la técnica <strong>de</strong> discretización <strong>de</strong> las variables<br />

no es la apropiada, dado que en el proceso <strong>de</strong> discretización se pier<strong>de</strong> información.<br />

En este investigación no se ha <strong>de</strong>sarrollado nuevos experimentos para validar<br />

esta afirmación, en su lugar se procedió a estimar la ganancia <strong>de</strong> información <strong>de</strong> cada<br />

característica.<br />

165


Estimación <strong>de</strong> la ganancia <strong>de</strong> información<br />

Para resolver el problema i<strong>de</strong>ntificado se preparan dos experimentos, que intentan<br />

estimar la ganancia <strong>de</strong> información <strong>de</strong> las características que ingresan al algoritmo. El<br />

primer experimento usa una red neuronal con una entrada para estimar el <strong>de</strong>sempeño<br />

individual <strong>de</strong> cada característica para luego or<strong>de</strong>narlas según dos indicadores el porcentaje<br />

<strong>de</strong> éxito y el porcentaje <strong>de</strong> VP. El segundo experimento usa una red neuronal<br />

<strong>de</strong> dos entradas para estimar el <strong>de</strong>sempeño <strong>de</strong> pares <strong>de</strong> características, para luego<br />

or<strong>de</strong>narlas según tres indicadores el porcentaje <strong>de</strong> éxito, el porcentaje <strong>de</strong> VP y la frecuencia<br />

<strong>de</strong> éxitos sobre cierto umbral. Los datos <strong>de</strong> entrenamiento consisten en 10,000<br />

registros con el 25 % <strong>de</strong> VP y los datos <strong>de</strong> prueba en 100,000 registros el 1 % <strong>de</strong> VP, ambos<br />

obtenidos aleatoriamente sin reposición. Se tomó la <strong>de</strong>cisión <strong>de</strong> usar los indicadores<br />

<strong>de</strong> porcentaje <strong>de</strong> éxito y porcentaje <strong>de</strong> VP porque ambas variables tienen una relación<br />

inversa (ver la figura 8.51), así mientras una <strong>de</strong> ellas pue<strong>de</strong> mejorar la otra no necesariamente<br />

mejores, <strong>de</strong>gradando el <strong>de</strong>sempeño <strong>de</strong>l clasificador. La curva fue obtenida con<br />

los datos <strong>de</strong>l segundo experimento.<br />

Figura 8.51: Relación entre el porcentaje <strong>de</strong> VP y el porcentaje <strong>de</strong> éxito .<br />

La frecuencia <strong>de</strong> éxito fue usada para tratar <strong>de</strong> medir la cantidad <strong>de</strong> veces que<br />

una características obtiene resultados mayores que cierto umbral in<strong>de</strong>pendientemente<br />

<strong>de</strong> los porcentajes <strong>de</strong> éxito o <strong>de</strong> VP que logre, se usaron dos umbrales (25 % y 70 %).<br />

El umbral <strong>de</strong>l 25 % elimina las ocurrencias don<strong>de</strong> el porcentaje <strong>de</strong> éxito es bajo y el<br />

porcentaje <strong>de</strong> VP es alto, el umbral <strong>de</strong>l 70 % elimina las ocurrencias don<strong>de</strong> el porcentaje<br />

<strong>de</strong> éxito es bajo y el porcentaje <strong>de</strong> VP es alto y por otro lado don<strong>de</strong> el porcentaje <strong>de</strong><br />

éxito es alto pero el porcentaje <strong>de</strong> VP es bajo.<br />

166


Experimento 1.<br />

Este experimento estima la ganancia <strong>de</strong> información (GI) usando una red con una<br />

neurona en la capa <strong>de</strong> entrada, seis neuronas en la capa intermedia y una en la salida,<br />

se calcula el <strong>de</strong>sempeño individual <strong>de</strong> cada una <strong>de</strong> las 47 características. En todos los<br />

casos los resultados se obtienen como el promedio <strong>de</strong> 10 mo<strong>de</strong>los (10-conjuntos). Se<br />

usan dos indicadores el porcentaje <strong>de</strong> éxito y el porcentaje <strong>de</strong> VP.<br />

1. Or<strong>de</strong>namiento según el porcentaje <strong>de</strong> éxito.<br />

En este caso el indicador <strong>de</strong> or<strong>de</strong>namiento es el porcentaje <strong>de</strong> éxito, se pue<strong>de</strong><br />

observar que este indicador es igual al 99 % para las 20 primeras características<br />

no existiendo diferencia entre ellas (ver la figura 8.52).<br />

Figura 8.52: GI estimada, or<strong>de</strong>nadas según el porcentaje <strong>de</strong> éxito.<br />

Los resultados obtenidos para los 10 primeros clasificadores se presentan en la<br />

figura 8.52 (líneas continuas), en este caso el porcentaje <strong>de</strong> éxito es bastante alto<br />

para las 3 primeras características (Momento invariante I, MSC 2 y Soli<strong>de</strong>z), pero<br />

se reduce para la cuarta y quinta, teniendo luego un incremento brusco. Por otro<br />

lado el porcentaje <strong>de</strong> VP es muy bajo, cercano a cero para las tres primeras características,<br />

teniendo luego cierto incremento. En este caso se observa claramente<br />

la relación inversa entre estas dos variables. Posiblemente se pue<strong>de</strong> obtener otros<br />

resultados variando el or<strong>de</strong>namiento, dado que todas estas características tienen<br />

el mismo valor para el indicador.<br />

167


2. Or<strong>de</strong>namiento según el porcentaje <strong>de</strong> VP.<br />

En este caso el indicador <strong>de</strong> or<strong>de</strong>namiento es el porcentaje <strong>de</strong> VP, se pue<strong>de</strong> observar<br />

que este indicador, para las 3 primeras características, es mayor que el 30 %<br />

y luego alcanza valores menores que el 10 % para el resto <strong>de</strong> características (ver<br />

la figura 8.53).<br />

Figura 8.53: GI estimada, or<strong>de</strong>nadas según el porcentaje <strong>de</strong> VP.<br />

Los resultados obtenidos para los 10 primeros clasificadores presenta buenos resultados<br />

para el porcentaje <strong>de</strong> éxito y para el porcentaje <strong>de</strong> VP, así el porcentaje<br />

<strong>de</strong> éxito llega a 86.2 % para luego bajar con las dos primeras características (contraste<br />

absoluto y STD <strong>de</strong>l gris) y el porcentaje <strong>de</strong> VP es superior al 70 % en todos<br />

los casos.<br />

Las dos primeras características correspon<strong>de</strong>n a propieda<strong>de</strong>s <strong>de</strong> contraste y las<br />

nueve siguientes correspon<strong>de</strong>n a propieda<strong>de</strong>s <strong>de</strong> forma. El máximo <strong>de</strong>sempeño se<br />

obtiene para las dos primeras características (Contraste absoluto y STD <strong>de</strong>l gris).<br />

En este caso no se observa la relación inversa entre el porcentaje <strong>de</strong> éxito y el<br />

porcentaje <strong>de</strong> VP.<br />

168


Experimento 2.<br />

Este experimento estima la ganancia <strong>de</strong> información usando una red con dos neuronas<br />

en la capa <strong>de</strong> entrada, seis en la capa intermedia y una en la capa <strong>de</strong> salida, se<br />

calcula el <strong>de</strong>sempeño <strong>de</strong> pares <strong>de</strong> características. El número <strong>de</strong> pares que se pue<strong>de</strong>n formar<br />

para n características es n(n + 1)/2, para n = 47 se forman 1,128 pares. En todos<br />

los casos los resultados se obtienen como el promedio <strong>de</strong> 10 mo<strong>de</strong>los (10-conjuntos).<br />

Se usan tres indicadores el porcentaje <strong>de</strong> éxito, el porcentaje <strong>de</strong> VP y la frecuencia <strong>de</strong><br />

éxitos sobre cierto umbral. Dado la relación inversa que existe entre porcentaje <strong>de</strong> éxito<br />

y el porcentaje <strong>de</strong> VP se <strong>de</strong>cidió poner dos umbrales para <strong>de</strong>purar aquellos mo<strong>de</strong>los con<br />

<strong>de</strong>sempeños menores que el umbral, estos fueron <strong>de</strong>l 25 % y <strong>de</strong>l 70 %. Para facilitar el<br />

análisis <strong>de</strong> los resultados, los datos <strong>de</strong> las corridas fueron colocados en una lista simple,<br />

don<strong>de</strong> un mo<strong>de</strong>lo es representado por dos filas, una por característica.<br />

1. Or<strong>de</strong>namiento según el porcentaje <strong>de</strong> éxito (umbral 25 %).<br />

En este caso el indicador <strong>de</strong> or<strong>de</strong>namiento es el porcentaje <strong>de</strong> éxito, el umbral<br />

es <strong>de</strong>l 25 %, el or<strong>de</strong>namiento se presenta para las 20 primeras características, se<br />

observa que este es superior al 90 % para todos los casos (ver la figura 8.54).<br />

Figura 8.54: GI estimada, or<strong>de</strong>nadas según el porcentaje <strong>de</strong> éxito.<br />

Los resultados obtenidos confirman la relación inversa entre el porcentaje <strong>de</strong> éxito<br />

y el porcentaje <strong>de</strong> VP, así mientras el porcentaje <strong>de</strong> éxito es superior al 95 %, el<br />

porcentaje <strong>de</strong> VP es menor que el 39 %.<br />

169


2. Or<strong>de</strong>namiento según el porcentaje <strong>de</strong> VP (umbral 25 %).<br />

En este caso el indicador <strong>de</strong> or<strong>de</strong>namiento es el porcentaje <strong>de</strong> VP, se pue<strong>de</strong> observar<br />

que para todas características es superior al 50 % pero inferior al 80 %, con<br />

un ten<strong>de</strong>ncia <strong>de</strong>creciente (ver la figura 8.55).<br />

Figura 8.55: GI estimada, or<strong>de</strong>nadas según el porcentaje <strong>de</strong> VP.<br />

En este caso los resultados para el porcentaje <strong>de</strong> éxito y para el porcentaje <strong>de</strong><br />

VP son mayores que el 75 %, la ten<strong>de</strong>ncia <strong>de</strong>l porcentaje <strong>de</strong> VP es creciente para<br />

las 10 primeras características y superior al porcentaje <strong>de</strong> éxito. La ten<strong>de</strong>ncia<br />

<strong>de</strong>l porcentaje <strong>de</strong> éxito es constante para las 6 primeras características y luego<br />

<strong>de</strong>crece. En este caso no se pue<strong>de</strong> observar la relación inversa entre el porcentaje<br />

<strong>de</strong> VP y el porcentaje <strong>de</strong> éxito.<br />

Por otro lado es interesante observar que la primera característica es una propiedad<br />

<strong>de</strong> contraste, la segunda y tercera característica son propieda<strong>de</strong>s <strong>de</strong> forma y la<br />

cuarta característica es una propiedad <strong>de</strong> contraste (gris máximo <strong>de</strong>l fondo).<br />

170


3. Or<strong>de</strong>namiento según la frecuencia <strong>de</strong> éxito (umbral 25 %).<br />

En este caso el indicador es la frecuencia <strong>de</strong> veces en que una característica<br />

está presente en un mo<strong>de</strong>lo (par <strong>de</strong> características) don<strong>de</strong> el <strong>de</strong>sempeño es mayor<br />

que el 25 % para el porcentaje <strong>de</strong> éxito y para el porcentaje <strong>de</strong> VP (ver la figura<br />

8.56). El or<strong>de</strong>namiento se presenta para las 20 primeras características, se observa<br />

que la ten<strong>de</strong>ncia es <strong>de</strong>creciente y que las dos primeras características (Contraste<br />

absoluto y STD <strong>de</strong>l gris) abarcan conjuntamente el 28 % <strong>de</strong> las ocurrencias.<br />

Figura 8.56: GI estimada, or<strong>de</strong>nadas según la frecuencia <strong>de</strong> éxito.<br />

En este caso los resultados con mayores que el 68 % para el porcentaje <strong>de</strong> éxito<br />

y para el porcentaje <strong>de</strong> VP, excepto en la última característica. La ten<strong>de</strong>ncia <strong>de</strong>l<br />

porcentaje <strong>de</strong> éxito es irregular pero superior el 68 %. La ten<strong>de</strong>ncia <strong>de</strong>l porcentaje<br />

<strong>de</strong> VP es creciente para las 7 primeras características. Se pue<strong>de</strong> afirmar según<br />

estos resultados y consi<strong>de</strong>rando las tres primeras características, que la ten<strong>de</strong>ncia<br />

es creciente para el porcentaje <strong>de</strong> éxito y <strong>de</strong>creciente para el porcentaje <strong>de</strong> VP.<br />

171


4. Or<strong>de</strong>namiento según el porcentaje <strong>de</strong> éxito (umbral 70 %).<br />

En este caso el indicador <strong>de</strong> or<strong>de</strong>namiento es el porcentaje <strong>de</strong> éxito, el umbral<br />

es <strong>de</strong>l 70 %, el or<strong>de</strong>namiento se presenta para las 20 primeras características, se<br />

observa que es superior al 75 % e inferior el 85 % para todos los casos (ver la figura<br />

8.57).<br />

Figura 8.57: GI estimada, or<strong>de</strong>nadas según el porcentaje <strong>de</strong> éxito.<br />

Los resultados obtenidos confirman nuevamente la relación inversa entre el porcentaje<br />

<strong>de</strong> éxito y el porcentaje <strong>de</strong> VP, así mientras el porcentaje <strong>de</strong> éxito es<br />

superior al 85 % y se mantiene constante para las 8 primeras características, el<br />

porcentaje <strong>de</strong> VP tiene un leve crecimiento y es mayor que el 40 % pero menor<br />

que el 50 %.<br />

172


5. Or<strong>de</strong>namiento según el porcentaje <strong>de</strong> VP (umbral 70 %).<br />

En este caso el indicador <strong>de</strong> or<strong>de</strong>namiento es el porcentaje <strong>de</strong> VP, se pue<strong>de</strong> observar<br />

que para todas características se mantiene constante y alre<strong>de</strong>dor <strong>de</strong>l 80 %<br />

(ver la figura 8.58).<br />

Figura 8.58: GI estimada, or<strong>de</strong>nadas según el porcentaje <strong>de</strong> VP.<br />

En este caso el comportamiento <strong>de</strong>l porcentaje <strong>de</strong> éxito y <strong>de</strong>l porcentaje <strong>de</strong> VP<br />

es irregular, el porcentaje <strong>de</strong> éxito es bastante alto (98 %) para las dos primeras<br />

características (Elongación 2, Factor <strong>de</strong> forma) pero el porcentaje <strong>de</strong> VP es cero<br />

en ambos casos. El porcentaje <strong>de</strong> éxito tiene una ten<strong>de</strong>ncia <strong>de</strong>creciente y el porcentaje<br />

<strong>de</strong> VP tiene ten<strong>de</strong>ncia creciente alcanzando valores alre<strong>de</strong>dor <strong>de</strong>l 75 %<br />

para ambos con las 8 primeras características. Es importante notar que las dos<br />

primeras características correspon<strong>de</strong>n a propieda<strong>de</strong>s <strong>de</strong> forma y la tercera a propieda<strong>de</strong>s<br />

<strong>de</strong> contraste.<br />

173


6. Or<strong>de</strong>namiento según la frecuencia <strong>de</strong> éxito (umbral 70 %).<br />

En este caso el indicador es la frecuencia <strong>de</strong> veces en que una característica<br />

está presente en los mo<strong>de</strong>los don<strong>de</strong> el <strong>de</strong>sempeño es mayor que el 70 % para<br />

el porcentaje <strong>de</strong> éxito y para el porcentaje <strong>de</strong> VP (ver la figura 8.59). El or<strong>de</strong>namiento<br />

se presenta para las 20 primeras características, la primera característica<br />

(Contraste absoluto) tiene la mayor frecuencia y todas las otras tiene la misma<br />

frecuencia pero menor que la primera.<br />

Figura 8.59: GI estimada, or<strong>de</strong>nadas según la frecuencia <strong>de</strong> éxito.<br />

En este caso el comportamiento es regular sin saltos bruscos, con <strong>de</strong>sempeños superiores<br />

al 70 % pero inferiores al 90 % para el porcentaje <strong>de</strong> éxito y el porcentaje<br />

<strong>de</strong> VP.<br />

De estos experimentos se pue<strong>de</strong> llegar a la conclusión que el contraste absoluto y<br />

la <strong>de</strong>sviación estándar <strong>de</strong>l gris <strong>de</strong> la calcificación permite clasificar una señal en<br />

calcificación con resultados aceptables, estas dos características son propieda<strong>de</strong>s<br />

<strong>de</strong> contraste. Por otro lado observando la figura 8.56 el momento <strong>de</strong> la secuencia<br />

<strong>de</strong> contorno 3 (MSC 3) también permite clasificar una señal en calcificación con<br />

resultados aceptables.<br />

Por lo tanto, para esta investigación tres características (contraste absoluto,<br />

la <strong>de</strong>sviación estándar <strong>de</strong>l gris <strong>de</strong> la calcificación y el momento <strong>de</strong> la<br />

secuencia <strong>de</strong> contorno 3) permiten lograr los máximos <strong>de</strong>sempeños para clasificar<br />

señales en calcificaciones logrando un <strong>de</strong>sempeño promedio <strong>de</strong>l 70.8 % para<br />

el porcentaje <strong>de</strong> VP y <strong>de</strong>l 85.7 % para el porcentaje <strong>de</strong> éxito global (ver la tabla<br />

8.21).<br />

174


Cuadro 8.21: Resultados obtenidos para clasificar señales en calcificaciones.<br />

No %VP %FN %VN %FP %éxito %error<br />

1 0.706 0.294 0.861 0.139 0.859 0.141<br />

2 0.704 0.296 0.857 0.143 0.856 0.144<br />

3 0.680 0.320 0.876 0.124 0.874 0.126<br />

4 0.710 0.290 0.863 0.137 0.862 0.138<br />

5 0.712 0.288 0.857 0.143 0.856 0.144<br />

6 0.722 0.278 0.849 0.151 0.848 0.152<br />

7 0.718 0.282 0.853 0.147 0.852 0.148<br />

8 0.688 0.312 0.863 0.137 0.861 0.139<br />

9 0.712 0.288 0.857 0.143 0.856 0.144<br />

10 0.702 0.298 0.867 0.133 0.866 0.134<br />

11 0.724 0.276 0.839 0.161 0.838 0.162<br />

12 0.680 0.320 0.868 0.132 0.867 0.133<br />

13 0.728 0.272 0.848 0.152 0.847 0.153<br />

14 0.724 0.276 0.853 0.147 0.852 0.148<br />

15 0.708 0.292 0.859 0.141 0.857 0.143<br />

media 0.708 0.292 0.858 0.142 0.857 0.143<br />

STD 0.015 0.015 0.009 0.009 0.009 0.009<br />

media/STD 46.33 19.12 94.67 15.66 96.90 16.22<br />

175


8.4.7. Detección <strong>de</strong> agrupamientos<br />

En esta etapa <strong>de</strong>l proceso se preten<strong>de</strong> i<strong>de</strong>ntificar los agrupamientos <strong>de</strong> calcificaciones<br />

<strong>de</strong>s<strong>de</strong> cada mamografía <strong>de</strong>pendiendo <strong>de</strong> las calcificaciones i<strong>de</strong>ntificadas en la<br />

etapa anterior, para resolver este problema es necesario <strong>de</strong>terminar dos parámetros en<br />

el algoritmo planteado en la sección 7.1: la distancia mínima entre calcificaciones y el<br />

indicador <strong>de</strong>l grado <strong>de</strong> agrupamiento, estos dos parámetros se <strong>de</strong>terminan por experimentación,<br />

por otro lado se validan los procedimientos planteados.<br />

La distancia mínima entre calcificaciones<br />

A medida que se incrementa la distancia mínima entre calcificaciones el número <strong>de</strong><br />

posibles agrupamientos que se pue<strong>de</strong> <strong>de</strong>tectar se reduce. En la figura 8.60 se presenta<br />

el número <strong>de</strong> agrupamientos en función <strong>de</strong>l radio para cada una <strong>de</strong> las 25 mamografías,<br />

el número <strong>de</strong> agrupamientos se ha obtenido tomando en consi<strong>de</strong>ración la <strong>de</strong>nsidad por<br />

cm 2 <strong>de</strong> calcificaciones y se or<strong>de</strong>na las imágenes en función <strong>de</strong>l número promedio <strong>de</strong><br />

calcificaciones.<br />

Figura 8.60: Número <strong>de</strong> agrupamientos <strong>de</strong>tectados por mamografía en función <strong>de</strong>l radio.<br />

Las seis primeras imágenes (mdb216, mdb233, mdb245, mdb209, mdb226 y mdb249)<br />

tienen más <strong>de</strong> dos agrupamientos para alguno <strong>de</strong> los cuatro radios consi<strong>de</strong>rados (50,<br />

100, 150 y 250 pixeles). Radios pequeños permiten i<strong>de</strong>ntificar gran número <strong>de</strong> agrupamientos,<br />

en el límite inferior el número <strong>de</strong> agrupamientos es igual al número <strong>de</strong><br />

calcificaciones. Radios gran<strong>de</strong>s permiten i<strong>de</strong>ntificar grupos <strong>de</strong> calcificaciones separados,<br />

pero a medida que el radio crece algunos grupos se pue<strong>de</strong>n unir, en el límite superior el<br />

número <strong>de</strong> agrupamientos es uno e incluye a todos las calcificaciones <strong>de</strong> la mamografía.<br />

176


El indicador <strong>de</strong>l grado <strong>de</strong> agrupamiento<br />

En esta investigación se consi<strong>de</strong>ra tres indicadores que permiten medir el grado<br />

<strong>de</strong> agrupamiento entre calcificaciones, más a<strong>de</strong>lante se comparan los resultados para<br />

tomar la <strong>de</strong>cisión <strong>de</strong> cuál <strong>de</strong> ellas usar:<br />

1. Densidad <strong>de</strong> calcificaciones.<br />

Se trata <strong>de</strong> formar agrupamientos don<strong>de</strong> la <strong>de</strong>nsidad <strong>de</strong> calcificaciones por cm 2<br />

(pixeles) es el máximo, en cada iteración <strong>de</strong>l algoritmo se extraen un subconjunto<br />

<strong>de</strong> ellas que conforman un agrupamiento, hasta que que<strong>de</strong>n calcificaciones<br />

aisladas. El número <strong>de</strong> agrupamientos es igual al número <strong>de</strong> extracciones más<br />

el número <strong>de</strong> calcificaciones aisladas que quedan. En la figura 8.61.a se presenta<br />

seis agrupamientos para un radio <strong>de</strong> 100 pixeles correspondiente a la mamografía<br />

mdb333.<br />

Figura 8.61: Ejemplos <strong>de</strong> agrupamientos. a) Densidad y b). Compacidad.<br />

2. Compacidad <strong>de</strong>l polígono <strong>de</strong> calcificaciones.<br />

Un agrupamiento <strong>de</strong> calcificaciones se pue<strong>de</strong> mo<strong>de</strong>lar como un polígono don<strong>de</strong> sus<br />

vértices correspon<strong>de</strong>n a las calcificaciones más alejadas <strong>de</strong>l centroi<strong>de</strong>. El concepto<br />

<strong>de</strong> compacidad se toma <strong>de</strong>l procesamiento <strong>de</strong> imágenes, en este caso la compacidad<br />

se calcula como: compacidad = 4área/perímetro 2 , don<strong>de</strong> el área correspon<strong>de</strong><br />

al área <strong>de</strong>l polígono convexo que contiene las calcificaciones y el perímetro correspon<strong>de</strong><br />

al perímetro <strong>de</strong>l polígono convexo. Se intenta buscar el agrupamiento<br />

que maximicen este indicador, es <strong>de</strong>cir gran<strong>de</strong>s áreas con el menor perímetro, este<br />

indicador es máximo en el caso <strong>de</strong> circunferencias y mínimo en el caso <strong>de</strong> objetos<br />

irregulares, pero no es influenciado por las calcificaciones ubicadas al interior <strong>de</strong>l<br />

177


polígono. En la figura 8.61.b se presenta cinco agrupamientos para un radio <strong>de</strong><br />

100 pixeles correspondiente a la mamografía mdb333.<br />

Se pue<strong>de</strong> observar las diferencias que presentan las dos figuras. En primer lugar<br />

el or<strong>de</strong>n en que se eligen las calcificaciones, en el caso <strong>de</strong> la figura 8.61.a, se elige<br />

primero aquel grupo don<strong>de</strong> las calcificaciones forman regiones <strong>de</strong>nsas, en el caso<br />

<strong>de</strong> la figura 8.61.b se prefiere elegir primero el grupo cuyo perímetro se aproxime<br />

a una circunferencia, sin interesar el número <strong>de</strong> calcificaciones <strong>de</strong>l interior. En<br />

segundo lugar el número <strong>de</strong> calcificaciones <strong>de</strong> cada grupo, dado que el or<strong>de</strong>n<br />

en que se eligen los grupos <strong>de</strong> calcificaciones es diferente, no necesariamente los<br />

agrupamientos contienen la misma cantidad <strong>de</strong> calcificaciones.<br />

3. Desviación estándar <strong>de</strong> los radios.<br />

Consi<strong>de</strong>rando el polígono convexo que contiene las calcificaciones, se preten<strong>de</strong><br />

buscar agrupamientos don<strong>de</strong> la <strong>de</strong>sviación estándar <strong>de</strong> los radios que unen el<br />

centroi<strong>de</strong> <strong>de</strong>l polígono con cada calcificación sea el mínimo, es <strong>de</strong>cir se intenta<br />

buscar calcificaciones agrupadas alre<strong>de</strong>dor <strong>de</strong> un centroi<strong>de</strong> cuyos radios tengan la<br />

menor variación. En la figura 8.62 se presenta seis agrupamientos para un radio<br />

<strong>de</strong> 100 pixeles correspondiente a la mamografía mdb333. Se pue<strong>de</strong> observar que<br />

primero se seleccionan las calcificaciones que tienen aproximadamente la misma<br />

distancia al centroi<strong>de</strong> <strong>de</strong> su agrupamiento.<br />

Figura 8.62: Ejemplo <strong>de</strong> agrupamientos según la <strong>de</strong>sviación estándar <strong>de</strong> los radios.<br />

En el cuadro 8.22 se presenta el número <strong>de</strong> calcificaciones según las tres técnicas<br />

utilizadas (<strong>de</strong>nsidad, compacidad y <strong>de</strong>sviación estándar) y los cuatro radios consi<strong>de</strong>rados,<br />

50, 100, 150 y 250 pixeles o sus equivalentes 1cm, 2cm, 3cm y 5cm.<br />

178


Cuadro 8.22: Número <strong>de</strong> calcificaciones según la técnica y el radio.<br />

Datos MIAS<br />

Densidad Compacidad Desviación estándar Agrupa- Calcifica-<br />

No Imagen 50 100 150 250 50 100 150 250 50 100 150 250 mientos ciones<br />

1 mdb209 5 2 1 1 3 2 1 1 4 2 1 1 1 19<br />

2 mdb211 1 1 1 1 1 1 1 1 1 1 1 1 1 2<br />

3 mdb212<br />

4 mdb213 2 1 1 1 2 1 1 1 2 1 1 1 1 15<br />

5 mdb214<br />

6 mdb216 11 7 5 4 11 6 5 2 11 7 5 3 1 21<br />

7 mdb218 1 1 1 1 1 1 1 1 1 1 1 1 1 3<br />

8 mdb219 1 1 1 1 1 1 1 1 1 1 1 1 1 13<br />

9 mdb222 1 1 1 1 1 1 1 1 1 1 1 1 1 3<br />

10 mdb223 2 1 1 1 2 1 1 1 2 1 1 1 2 6<br />

11 mdb226 2 2 2 2 2 2 2 2 2 2 2 2 3 4<br />

12 mdb227 1 1 1 1 1 1 1 1 1 1 1 1 1 2<br />

13 mdb231 1 1 1 1 1 1 1 1 1 1 1 1 1 2<br />

14 mdb233 15 6 3 2 10 5 3 2 15 6 3 2 1 65<br />

15 mdb236 1 1 1 1 1 1 1 1 1 1 1 1 1 4<br />

16 mdb238 1 1 1 1 1 1 1 1 1 1 1 1 1 5<br />

17 mdb239 2 2 1 1 2 2 1 1 2 2 1 1 2 2<br />

18 mdb240<br />

19 mdb241 2 1 1 1 1 1 1 1 2 1 1 1 1 12<br />

20 mdb245 11 4 3 1 8 3 3 1 10 4 3 1 1 43<br />

21 mdb248 1 1 1 1 1 1 1 1 1 1 1 1 1 4<br />

22 mdb249 3 2 1 1 3 2 1 1 3 2 2 1 2 11<br />

23 mdb252 1 1 1 1 1 1 1 1 1 1 1 1 1 7<br />

24 mdb253 1 1 1 1 1 1 1 1 1 1 1 1 1 5<br />

25 mdb256 1 1 1 1 1 1 1 1 1 1 1 1 1 4<br />

Total 67 40 31 27 56 37 31 25 65 40 32 26 27 252<br />

Promedio 3.4 1.9 1.5 1.3 2.8 1.8 1.5 1.2 3.3 1.9 1.5 1.2 1.1 10.7<br />

Consi<strong>de</strong>rando el indicador basado en la <strong>de</strong>nsidad y el radio máximo <strong>de</strong> 100 cm 2 ,<br />

se logra <strong>de</strong>tectar 40 agrupamientos en total, el promedio es <strong>de</strong> 1.9 agrupamientos por<br />

mamografía, por otro lado consi<strong>de</strong>rando solamente las siete mamografías con más <strong>de</strong><br />

un agrupamiento el promedio es <strong>de</strong> 3.6, en catorce mamografías se logra coincidir en<br />

el número <strong>de</strong> agrupamientos proporcionados por la base <strong>de</strong> datos <strong>de</strong> la MIAS, en siete<br />

mamografías no se logra pre<strong>de</strong>cir el número <strong>de</strong> agrupamientos (pero en tres <strong>de</strong> ellas no<br />

se indica el radio). Las tres mamografías don<strong>de</strong> no se indica el centroi<strong>de</strong> y el radio <strong>de</strong> la<br />

región (mdb216, mdb233 y mdb245) tienen en promedio 5.7 agrupamientos. Analizando<br />

las calcificaciones, en promedio existe 6.3 calcificaciones por agrupamiento.<br />

En el cuadro se pue<strong>de</strong> observar que a medida que el radio se incrementa el número<br />

<strong>de</strong> agrupamientos se reduce. Las mamografías mdb216, mdb233 y mdb245 contienen<br />

la mayor cantidad <strong>de</strong> agrupamientos dado que estas se distribuyen por toda la mama.<br />

179


El número promedio <strong>de</strong> agrupamientos consi<strong>de</strong>rando la técnica <strong>de</strong> la compacidad es<br />

menor que el número <strong>de</strong> agrupamientos consi<strong>de</strong>rando las otras dos técnicas. Finalmente<br />

no existe diferencia significativa en el número <strong>de</strong> agrupamientos cuando se consi<strong>de</strong>ra<br />

las técnicas <strong>de</strong> la <strong>de</strong>nsidad y la <strong>de</strong>sviación estándar, pero si en el or<strong>de</strong>n en que los<br />

agrupamientos son seleccionados y en la cantidad <strong>de</strong> calcificaciones.<br />

De estos resultados experimentales se pue<strong>de</strong> <strong>de</strong>terminar que los parámetros <strong>de</strong>l<br />

procedimientos son los siguientes: el radio máximo es 100 pixeles y el indicador <strong>de</strong>l<br />

grado <strong>de</strong> agrupamiento es la <strong>de</strong>nsidad <strong>de</strong> calcificaciones por cm 2 , dado que estos valores<br />

permiten aproximar mejor el número <strong>de</strong> agrupamientos <strong>de</strong>tectados al número <strong>de</strong><br />

regiones proporcionada por la base <strong>de</strong> datos <strong>de</strong> la MIAS.<br />

Extracción <strong>de</strong> características<br />

Luego <strong>de</strong> i<strong>de</strong>ntificar los agrupamientos <strong>de</strong> calcificaciones proce<strong>de</strong>remos a extraer<br />

características <strong>de</strong>s<strong>de</strong> cada una <strong>de</strong> ellos, las características servirán para clasificarlos en<br />

dos grupos, benignos o malignos. En la tabla 8.23 se presenta los datos <strong>de</strong> extraídos<br />

<strong>de</strong>s<strong>de</strong> los 40 agrupamientos i<strong>de</strong>ntificados (solo se presentan 13 características).<br />

Cuadro 8.23: Ejemplos <strong>de</strong> características extraídas <strong>de</strong>s<strong>de</strong> 40 agrupamientos.<br />

img Dx N Cp De Rstd P A Dm Rm Rp Cam CaM Gp Gm<br />

209 0 13 0.2 0.0 12.7 261 3572 44 17 35 4.3 7.5 150 177<br />

209 0 6 0.1 0.0 15.0 223 1818 48 19 39 6.2 8.6 154 168<br />

211 0 2 0.0 0.0 0.0 24 0 12 6 6 5.8 8.4 173 189<br />

213 0 15 0.2 0.0 14.1 204 2521 31 13 26 5.4 15.7 155 178<br />

216 0 4 0.0 0.0 36.3 339 1130 42 20 53 3.7 16.2 182 217<br />

216 0 4 0.2 0.0 7.9 120 610 29 15 21 5.1 9.8 188 200<br />

216 0 3 0.1 0.0 14.2 209 1452 81 28 41 4.2 10.6 188 209<br />

216 0 4 0.0 0.1 15.7 149 53 21 8 24 4.7 8.7 205 219<br />

216 0 3 0.1 0.0 16.0 226 1566 95 34 45 4.4 5.8 222 238<br />

216 0 2 0.0 0.0 0.0 175 0 88 44 44 4.4 6.2 221 228<br />

216 0 1 0.0 0.0 0.0 0 0 0 0 0 17.0 17.0 141 154<br />

218 1 3 0.2 0.1 1.8 32 40 8 4 6 4.7 7.7 154 172<br />

219 1 13 0.2 0.0 8.1 133 989 28 3 14 5.3 35.9 144 201<br />

222 1 3 0.0 0.8 5.8 54 4 20 4 10 4.5 5.2 156 171<br />

223 1 6 0.1 0.0 20.4 188 878 26 7 24 6.4 13.6 194 202<br />

226 1 3 0.1 0.4 2.7 23 8 6 1 4 4.0 4.7 137 157<br />

226 1 1 0.0 0.0 0.0 0 0 0 0 0 4.3 4.3 163 165<br />

227 1 2 0.0 0.0 0.0 14 0 7 4 4 7.7 12.1 141 158<br />

231 0 2 0.0 0.0 0.0 75 0 38 19 19 6.4 10.4 127 144<br />

233 0 31 0.3 0.0 14.5 287 5602 64 7 30 3.3 19.1 152 207<br />

233 0 4 0.1 0.0 9.9 196 993 60 28 38 4.4 10.0 146 167<br />

233 0 10 0.2 0.0 10.5 276 4482 54 32 43 4.2 13.1 168 195<br />

180


img Dx N Cp De Rstd P A Dm Rm Ra Cam CAM Ga Gm<br />

233 0 11 0.3 0.0 12.7 292 5320 63 27 40 3.4 10.9 173 197<br />

233 0 4 0.2 0.0 11.3 173 1412 49 16 29 4.7 7.9 193 207<br />

233 0 5 0.0 0.0 16.1 168 350 65 2 30 6.2 13.5 155 176<br />

236 1 4 0.2 0.0 3.8 47 91 9 3 8 4.7 9.2 132 138<br />

238 0 5 0.2 0.0 3.6 65 212 20 5 11 5.7 8.1 146 160<br />

239 0 1 0.0 0.0 0.0 0 0 0 0 0 6.9 6.9 159 163<br />

239 0 1 0.0 0.0 0.0 0 0 0 0 0 7.4 7.4 150 154<br />

241 0 12 0.2 0.0 9.5 139 965 29 4 17 5.9 10.6 160 182<br />

245 0 17 0.2 0.0 19.3 294 4596 60 5 33 3.5 17.8 180 203<br />

245 0 20 0.3 0.0 11.2 333 7441 74 18 46 3.8 21.8 161 218<br />

245 0 4 0.2 0.0 6.9 124 613 35 16 23 7.8 16.8 156 182<br />

245 0 2 0.0 0.0 0.0 193 0 96 48 48 8.6 10.1 123 146<br />

248 1 4 0.2 0.1 0.7 31 57 9 5 6 6.8 13.9 158 165<br />

249 0 7 0.2 0.0 7.7 108 678 25 2 14 7.3 18.3 173 192<br />

249 0 4 0.1 0.0 20.7 203 1185 77 18 34 14.4 23.2 185 201<br />

252 1 7 0.2 0.0 5.7 76 220 11 3 10 5.9 10.1 152 160<br />

253 0 5 0.1 0.0 5.0 75 180 30 5 14 4.1 6.1 127 136<br />

256 0 4 0.2 0.0 10.3 129 715 36 9 20 4.9 5.5 173 180<br />

Don<strong>de</strong>: Dx diagnóstico P perímetro convexo Cam contraste absoluto mín<br />

N calcificaciones A área convexa CaM contraste absoluto máx<br />

Cp compacidad Dm diámetro mínimo Gp gris promedio<br />

De <strong>de</strong>nsidad Rm radio mínimo Gm gris mínimo<br />

Rstd radios std Rp radio promedio<br />

Analizando alguno <strong>de</strong> los atributos, se pue<strong>de</strong> observar que:<br />

1. Diagnóstico (Dx).<br />

De los 40 agrupamientos, 10 son benignos (1) y 30 son malignos (0).<br />

2. Radio y Diámetro.<br />

En el diagrama <strong>de</strong> cajas <strong>de</strong> la figura 8.63 se pue<strong>de</strong> observar la relación que existe<br />

entre el diámetro mínimo, el radio mínimo y el radio promedio.<br />

Según el diagrama estas tras características trabajando in<strong>de</strong>pendientemente pue<strong>de</strong>n<br />

separar los agrupamientos en benignos y malignos consi<strong>de</strong>rando el mínimo error<br />

en la separación, esto es particularmente cierto en el caso <strong>de</strong> diámetro mínimo,<br />

don<strong>de</strong> los casos malignos se distribuyen en el intervalo [34, 62], pero en el caso <strong>de</strong><br />

los benignos en el intervalo [3, 18], con una clara separación entre estos intervalos,<br />

salvo algunos casos extremos.<br />

3. Gris <strong>de</strong> las calcificaciones.<br />

En el diagrama <strong>de</strong> cajas <strong>de</strong> la figura 8.64 se pue<strong>de</strong> observar la relación que existe<br />

entre el gris mínimo y el gris máximo <strong>de</strong> las calcificaciones que conforman el<br />

agrupamiento.<br />

181


Figura 8.63: Diagrama <strong>de</strong> cajas para diámetro mínimo, radio mínimo y radio promedio.<br />

Según el diagrama estas dos características trabajando in<strong>de</strong>pendientemente pue<strong>de</strong>n<br />

separar los agrupamientos en benignos y malignos consi<strong>de</strong>rando cierto error en la<br />

separación, dado que los intervalos en que se distribuyen contienen rangos don<strong>de</strong><br />

se interceptan.<br />

Figura 8.64: Diagrama <strong>de</strong> cajas para gris mínimo y gris máximo.<br />

4. Estadísticos.<br />

En la tabla 8.24 se presentas cinco estadísticos obtenidos <strong>de</strong>s<strong>de</strong> las características,<br />

estos son: valor mínimo, valor máximo, promedio, <strong>de</strong>sviación estándar (STD) y<br />

asimetría, para las 30 características i<strong>de</strong>ntificadas. Es importante notar la dife-<br />

182


encia <strong>de</strong> magnitu<strong>de</strong>s entre ellas, así mientras el área convexa pertenece al rango<br />

[0, 7440], la compacidad pertenece al rango [0, 0.272].<br />

Cuadro 8.24: Estadísticos para las 30 características extraídas <strong>de</strong>s<strong>de</strong> los agrupamientos.<br />

N Característica Mín Máx Prom STD Asim<br />

forma <strong>de</strong>l agrupamiento<br />

1 calcificaciones 1 31.0 6.3 6.1 2.2<br />

2 perímetro convexo 0 339.1 141.4 101.0 0.2<br />

3 área convexa 0 7,440.5 1,243.6 1,837.5 1.9<br />

4 compacidad 0 0.3 0.1 0.1 -0.1<br />

5 <strong>de</strong>nsidad 0 0.8 0.0 0.1 4.7<br />

6 radio total 0 936.3 173.0 223.3 2.2<br />

7 radio máximo 0 85.3 35.3 24.7 0.1<br />

8 radio mínimo 0 48.1 12.5 12.3 1.3<br />

9 radio promedio 0 52.9 22.7 15.8 0.2<br />

10 radios std 0 36.3 8.8 7.9 1.1<br />

11 diámetro máximo 0 168.0 60.2 42.0 0.2<br />

12 diámetro mínimo 0 96.0 36.8 27.9 0.5<br />

13 distancia promedio 0 96.0 35.8 26.2 0.5<br />

14 distancia std 0 45.0 15.1 12.8 0.3<br />

área <strong>de</strong> las calcificaciones<br />

15 área total MC 18 512.0 124.6 123.0 1.9<br />

16 área promedio MC 10 31.0 19.5 5.2 0.2<br />

17 área STD MC 0 13.0 6.0 3.5 0.1<br />

18 área máxima MC 12 45.0 27.7 8.5 0.1<br />

19 área mínima MC 4 26.0 12.2 6.4 0.6<br />

20 área relativa. 0 16.0 0.6 2.6 5.7<br />

contraste <strong>de</strong> las calcificaciones<br />

21 gris total 141 4,700.0 1,018.7 964.2 2.1<br />

22 gris promedio 122 221.0 162.5 23.8 0.7<br />

23 girs std 0 38.0 10.7 7.9 1.1<br />

24 girs máximo 127 229.0 169.7 24.9 0.2<br />

25 gris mínimo 136 238.0 181.5 25.9 0.2<br />

26 contraste absoluto total 4 265.0 55.0 60.5 2.0<br />

27 contraste absoluto promedio 4 18.0 7.8 3.1 1.5<br />

28 contraste absoluto std 0 11.0 1.9 2.1 2.4<br />

29 contraste absoluto máx 4 35.0 11.2 6.1 1.7<br />

30 contraste absoluto mín 3 16.0 5.3 2.6 2.8<br />

183


Agrupamiento unitario<br />

Por otro lado, para propósitos <strong>de</strong> probar la hipótesis <strong>de</strong> la investigación se obtiene<br />

la lista <strong>de</strong> los 22 agrupamientos, uno por cada mamografía (ver la tabla 8.25), conformados<br />

por todas las calcificaciones <strong>de</strong>tectadas en cada imagen, en este caso no se<br />

consi<strong>de</strong>ra ninguna técnica para evaluar el grado <strong>de</strong> agrupamiento.<br />

Cuadro 8.25: Ejemplos <strong>de</strong> características extraídas <strong>de</strong>s<strong>de</strong> 22 agrupamientos.<br />

img Dx N Cp De Rstd P A Dm Rm Rp Cam CaM Gp Gm<br />

209 0 19 0.2 0.0 20.8 376 8716 96 4 44 4.3 8.6 151 177<br />

211 0 2 0.0 0.0 0.0 24 0 12 6 6 5.8 8.4 173 189<br />

213 0 15 0.2 0.0 14.1 204 2521 31 13 26 5.4 15.7 155 178<br />

216 0 21 0.3 0.0 34.9 1317 118287 361 127 185 3.7 17.0 196 238<br />

218 1 3 0.2 0.1 1.8 32 40 8 4 6 4.7 7.7 154 172<br />

219 1 13 0.2 0.0 8.1 133 989 28 3 14 5.3 35.9 144 201<br />

222 1 3 0.0 0.8 5.8 54 4 20 4 10 4.5 5.2 156 171<br />

223 1 6 0.1 0.0 20.4 188 878 26 7 24 6.4 13.6 194 202<br />

226 1 4 0.0 0.0 67.0 546 228 262 61 100 4.0 4.7 143 165<br />

227 1 2 0.0 0.0 0.0 14 0 7 4 4 7.7 12.1 141 158<br />

231 0 2 0.0 0.0 0.0 75 0 38 19 19 6.4 10.4 127 144<br />

233 0 65 0.3 0.0 37.9 843 44799 192 27 92 3.3 19.1 160 207<br />

236 1 4 0.2 0.0 3.8 47 91 9 3 8 4.7 9.2 132 138<br />

238 0 5 0.2 0.0 3.6 65 212 20 5 11 5.7 8.1 146 160<br />

239 0 2 0.0 0.0 0.0 254 0 127 63 63 6.9 7.4 155 163<br />

241 0 12 0.2 0.0 9.5 139 965 29 4 17 5.9 10.6 160 182<br />

245 0 43 0.2 0.0 34.3 784 35095 170 16 74 3.5 21.8 166 218<br />

248 1 4 0.2 0.1 0.7 31 57 9 5 6 6.8 13.9 158 165<br />

249 0 11 0.1 0.0 29.7 407 4633 96 19 55 7.3 23.2 178 201<br />

252 1 7 0.2 0.0 5.7 76 220 11 3 10 5.9 10.1 152 160<br />

253 0 5 0.1 0.0 5.0 75 180 30 5 14 4.1 6.1 127 136<br />

256 0 4 0.2 0.0 10.3 129 715 36 9 20 4.9 5.5 173 180<br />

Don<strong>de</strong>: Dx diagnóstico P perímetro convexo Cam contraste absoluto mín<br />

N calcificaciones A área convexa CaM contraste absoluto máx<br />

Cp compacidad Dm diámetro mínimo Gp gris promedio<br />

De <strong>de</strong>nsidad Rm radio mínimo Gm gris mínimo<br />

Rstd radios std Rp radio promedio<br />

En el cuadro se pue<strong>de</strong> observar los valores bastante altos <strong>de</strong>l área y los valores<br />

bastante bajos para la <strong>de</strong>nsidad en las imágenes mdb216, mdb233 y mdb245, dado que<br />

se consi<strong>de</strong>ran todas las calcificaciones en la mama.<br />

184


Selección <strong>de</strong> características<br />

Para seleccionar el subconjunto <strong>de</strong> características que maximicen el <strong>de</strong>sempeño <strong>de</strong><br />

un clasificador se proce<strong>de</strong> a usar una <strong>de</strong>rivación <strong>de</strong>l algoritmo <strong>de</strong> búsqueda secuencial<br />

hacia a<strong>de</strong>lante. Dado que el algoritmo es sensible al or<strong>de</strong>namiento <strong>de</strong> las características<br />

que ingresan, se proce<strong>de</strong> a estimar un indicador <strong>de</strong> este or<strong>de</strong>namiento.<br />

Se usa la siguiente heurística para tratar <strong>de</strong> aproximar el or<strong>de</strong>n en que las características<br />

ingresan al clasificador, el procedimiento es el siguiente:<br />

1. Se prepara una lista <strong>de</strong> todos los posibles pares <strong>de</strong> características, para n características<br />

el número <strong>de</strong> pares es n(n+1) , para n = 30 se calculan 465 pares.<br />

n<br />

2. Se estima el <strong>de</strong>sempeño <strong>de</strong> cada par <strong>de</strong> características (la medida <strong>de</strong> <strong>de</strong>sempeño<br />

es el porcentaje <strong>de</strong> éxito).<br />

3. Se i<strong>de</strong>ntifica los pares <strong>de</strong> características con <strong>de</strong>sempeños mayores que cierto umbral,<br />

en este caso el umbral es el 90 % <strong>de</strong> éxito.<br />

4. Se calcula el número <strong>de</strong> veces que cada característica participa en la lista.<br />

5. Se or<strong>de</strong>na <strong>de</strong> mayor a menor el número <strong>de</strong> veces y se obtiene una lista or<strong>de</strong>nada<br />

<strong>de</strong> características (ver la figura 8.65.<br />

Figura 8.65: Características or<strong>de</strong>nadas en función a la frecuencia <strong>de</strong> éxito.<br />

En la 8.65 se pue<strong>de</strong> observar que el 50 % <strong>de</strong> los casos es cubierto por las seis<br />

primeras características y el 75 % <strong>de</strong> los casos por las 12 primeras características. La<br />

185


característica que logra mayor frecuencia es el diámetro mínimo <strong>de</strong>l agrupamiento,<br />

seguido por el radio mínimo y el radio promedio, estas tres primeras características<br />

pertenecen a la forma <strong>de</strong>l agrupamiento, la siguiente característica es el gris mínimo <strong>de</strong><br />

las calcificaciones que conforman el agrupamiento.<br />

Luego <strong>de</strong> obtener la lista or<strong>de</strong>nada <strong>de</strong> características se proce<strong>de</strong> seleccionar el<br />

subconjunto <strong>de</strong> ellas que minimizan el error <strong>de</strong> un clasificador. En la figura 8.66 se<br />

presenta el <strong>de</strong>sempeño <strong>de</strong> los 30 clasificadores diseñados, don<strong>de</strong> el clasificador <strong>de</strong> la<br />

posición p tiene como entradas las primeras p características.<br />

Figura 8.66: Porcentaje <strong>de</strong> éxito para 30 clasificadores.<br />

En este caso fue posible probar los 30 clasificadores dado la cantidad reducida <strong>de</strong><br />

datos. El indicador <strong>de</strong> <strong>de</strong>sempeño <strong>de</strong>l clasificador es el porcentaje <strong>de</strong> éxito y se hace<br />

uso <strong>de</strong>l estimador <strong>de</strong> validación cruzada para 4 conjuntos, los datos <strong>de</strong> entrenamiento<br />

correspon<strong>de</strong>n al 75 % <strong>de</strong> los datos y los <strong>de</strong> prueba al 25 % <strong>de</strong> ellos. La red en todos los<br />

casos tiene 3 capas, el número <strong>de</strong> neuronas <strong>de</strong> la capa <strong>de</strong> entrada es igual al número <strong>de</strong><br />

características, el número <strong>de</strong> neuronas <strong>de</strong> la capa intermedia es la mitad <strong>de</strong>l número <strong>de</strong><br />

neuronas <strong>de</strong> la capa <strong>de</strong> entrada siendo el mínimo 6 neuronas y la capa <strong>de</strong> salida tiene<br />

1 neurona (el diagnóstico).<br />

En la figura 8.66 se presenta los resultados obtenidos, en este caso el indicador<br />

<strong>de</strong>l <strong>de</strong>sempeño es el porcentaje <strong>de</strong> éxito. Se observa que consi<strong>de</strong>rando sólo el las tres<br />

primeras características se logra un <strong>de</strong>sempeño <strong>de</strong>l 87.5 % para clasificar agrupamientos.<br />

Adicionando más características al clasificador el <strong>de</strong>sempeño se reduce. Si bien en<br />

186


algunos caso se logra obtener algunos incrementos el <strong>de</strong>sempeño promedio es menor<br />

que el obtenido con las tres primeras características, el <strong>de</strong>sempeño bastante alto <strong>de</strong>l<br />

92.5 % logrado cuando se usan todas las características no se consi<strong>de</strong>ra, dado que se<br />

pue<strong>de</strong> obtener aproximadamente los mismos resultados con sólo las tres primeras características.<br />

De los resultados obtenidos se pue<strong>de</strong> concluir que el número <strong>de</strong> calcificaciones no<br />

influye en el diagnostico benigno o maligno <strong>de</strong>l agrupamiento, por otro lado la forma<br />

<strong>de</strong>l agrupamiento influye en el diagnostico, así las tres primeras características son<br />

propieda<strong>de</strong>s <strong>de</strong> forma (diámetro mínimo, radio mínimo y radio promedio). Por otro<br />

lado las propieda<strong>de</strong>s <strong>de</strong> contraste parecen influir menos en la <strong>de</strong>cisión (el gris mínimo<br />

se encuentra en la posición 4).<br />

Finalmente las características seleccionadas son: el diámetro mínimo, el radio<br />

mínimo y el radio promedio, ellos serán usados para pronosticar el diagnóstico <strong>de</strong><br />

los agrupamientos y el <strong>de</strong>sempeño promedio obtenido para pronosticar el diagnostico<br />

es <strong>de</strong>l 87.5 %.<br />

Clasificación <strong>de</strong> agrupamientos<br />

Para evaluar el <strong>de</strong>sempeño <strong>de</strong>l clasificador ante variaciones en sus parámetros<br />

se preparan dos cuadros, el primero evalúa el <strong>de</strong>sempeño según el porcentaje <strong>de</strong> la<br />

población usada en la etapa <strong>de</strong> entrenamiento y el segundo evalúa el <strong>de</strong>sempeño según<br />

el número <strong>de</strong> neuronas <strong>de</strong> la capa intermedia. La evaluación se realiza a dos poblaciones<br />

la primera <strong>de</strong> ellas correspon<strong>de</strong> a 40 agrupamientos (ver la tabla 8.23) y la segunda a<br />

22 agrupamientos (ver la tabla 8.25).<br />

1. Porcentaje <strong>de</strong> registros usados en el entrenamiento. La técnica utilizada para<br />

seleccionar los registros <strong>de</strong> entrenamiento y prueba es el muestreo aleatorio con<br />

reposición. Se forma una serie <strong>de</strong> muestras con un porcentaje variables <strong>de</strong> registros<br />

para el entrenamiento, pero el 100 % para la evaluación. En las figuras 8.67 y 8.68<br />

se presentan los <strong>de</strong>sempeños promedios <strong>de</strong>l clasificador ante diferentes porcentajes<br />

<strong>de</strong> registros usados en el entrenamiento.<br />

2. Neuronas <strong>de</strong> la capa intermedia. El número <strong>de</strong> neuronas <strong>de</strong> la capa intermedia se<br />

varia entre 1 y 10. En las figuras 8.69 y 8.70 se presentan los <strong>de</strong>sempeños promedios<br />

<strong>de</strong>l clasificador ante diferentes número <strong>de</strong> neuronas <strong>de</strong> la capa intermedia.<br />

Según estos resultados el <strong>de</strong>sempeño <strong>de</strong> la red mejora ante incrementos en el<br />

porcentaje, en el primer caso para 40 agrupamientos (ver la figura 8.67) el <strong>de</strong>sempeño<br />

siempre es creciente, los resultados son semejante si el número <strong>de</strong> neuronas <strong>de</strong> capa<br />

intermedia es mayor a 1. Así para el 40 % <strong>de</strong> registros el <strong>de</strong>sempeño es <strong>de</strong>l 80 %, para el<br />

60 % el <strong>de</strong>sempeño es 85 % y para 80 % el <strong>de</strong>sempeño es 92.5 %. Es interesante observa<br />

que para el 100 % <strong>de</strong> registros el <strong>de</strong>sempeño no llega a ser el 100 %.<br />

187


Figura 8.67: Desempeño <strong>de</strong> la red según el porcentaje <strong>de</strong> registros (40 agrupamientos).<br />

En el segundo caso para 22 agrupamientos (ver la figura 8.68) el <strong>de</strong>sempeño no<br />

siempre es creciente, esto es cierto cuando el número <strong>de</strong> neuronas <strong>de</strong> la capa intermedia<br />

es menor que 2, para cantida<strong>de</strong>s mayores el comportamiento siempre es creciente. En<br />

este caso se llega al 100 % <strong>de</strong> <strong>de</strong>sempeño cuando se usa el 100 % en el entrenamiento.<br />

Figura 8.68: Desempeño <strong>de</strong> la red según el porcentaje <strong>de</strong> registros (22 agrupamientos).<br />

Por otro lado según estos resultados el <strong>de</strong>sempeño <strong>de</strong> la red mejora ante incrementos<br />

en el número <strong>de</strong> neuronas <strong>de</strong> la capa intermedia. Para 40 agrupamientos (ver la<br />

figura 8.69 se pue<strong>de</strong> pue<strong>de</strong> observar que adicionando una neurona a la capa intermedia<br />

el <strong>de</strong>sempeño se incrementa en un 10 %, esto suce<strong>de</strong> hasta 3 neuronas, incrementos<br />

sucesivos no necesariamente incrementan el <strong>de</strong>sempeño. Para 22 agrupamientos (ver la<br />

figura 8.70 se pue<strong>de</strong> pue<strong>de</strong> observar que el <strong>de</strong>sempeño se incrementa ante incrementos<br />

188


Figura 8.69: Desempeño <strong>de</strong> la red según el número <strong>de</strong> neuronas <strong>de</strong> la capa intermedia.<br />

en el número <strong>de</strong> neuronas, pero se estabiliza cuando se llega a 5 neuronas, cantida<strong>de</strong>s<br />

mayores no mejoran el <strong>de</strong>sempeño y eventualmente pue<strong>de</strong>n reducirlo.<br />

Figura 8.70: Desempeño <strong>de</strong> la red según el número <strong>de</strong> neuronas <strong>de</strong> la capa intermedia.<br />

Finalmente, el porcentaje <strong>de</strong> registros para la etapa <strong>de</strong> entrenamiento se fija en<br />

75 % y la capa intermedia se fija en 6 neuronas para ambos grupos. Por lo tanto el<br />

<strong>de</strong>sempeño finalmente obtenido para clasificar agrupamientos es <strong>de</strong>l 91 % consi<strong>de</strong>rando<br />

un universo <strong>de</strong> 40 agrupamientos y 89 % consi<strong>de</strong>rando un universo <strong>de</strong> 22 agrupamientos.<br />

189


8.5. Prueba <strong>de</strong> la hipótesis<br />

La hipótesis <strong>de</strong> esta investigación establece que consi<strong>de</strong>rar siempre a todas la calcificaciones<br />

<strong>de</strong> una imagen como parte <strong>de</strong> un solo agrupamiento no proporciona suficiente<br />

información que si se consi<strong>de</strong>ra que una imagen pue<strong>de</strong> contener uno o más agrupamientos<br />

<strong>de</strong> calcificaciones. La hipótesis intenta compara dos formas <strong>de</strong> pronosticar el diagnóstico<br />

<strong>de</strong> la mamografía, en el primer caso se intenta pronosticar consi<strong>de</strong>rando que<br />

las propieda<strong>de</strong>s <strong>de</strong> los agrupamientos <strong>de</strong>tectados asumiendo que en una mamografía se<br />

pue<strong>de</strong>n <strong>de</strong>tectar uno o más, en el segundo caso se intenta pronosticar consi<strong>de</strong>rando las<br />

propieda<strong>de</strong>s siempre siempre un solo agrupamiento, conformado por todas las calcificaciones<br />

<strong>de</strong> la mamografía. Para <strong>de</strong>mostrar la hipótesis planteada en esta investigación<br />

se prepara un experimento para evaluar cuatro tratamientos aplicados a 2 conjuntos <strong>de</strong><br />

datos e i<strong>de</strong>ntificar si estos tratamientos tienen alguna importancia en los resultados o<br />

si las variaciones se <strong>de</strong>ben al azar:<br />

1. Datos. Se prepara dos grupos <strong>de</strong> datos, <strong>de</strong>s<strong>de</strong> cada grupo <strong>de</strong> datos, se extrae las<br />

siguientes características: diámetro mínimo, radio mínimo y radio promedio.<br />

GRUPO40. El primer grupo correspon<strong>de</strong> a los 40 agrupamientos i<strong>de</strong>ntificados,<br />

usando la técnica <strong>de</strong> <strong>de</strong>nsidad y el radio <strong>de</strong> 100 pixeles (ver la tabla<br />

8.23), cada agrupamiento tiene asignado un diagnóstico proporcionado por<br />

la base <strong>de</strong> datos <strong>de</strong> la MIAS.<br />

GRUPO22. El segundo grupo correspon<strong>de</strong> a los 22 agrupamientos obtenidos,<br />

uno <strong>de</strong>s<strong>de</strong> cada mamografía (ver la tabla 8.25), en este caso no fue necesario<br />

usar ninguna técnica, cada agrupamiento tiene asignado un diagnóstico proporcionado<br />

por la base <strong>de</strong> datos <strong>de</strong> la MIAS.<br />

2. Tratamientos. Se preparan dos re<strong>de</strong>s, ambas tienen 3 capas, 3 neuronas en la capa<br />

<strong>de</strong> entrada, 6 en la intermedia y 1 en la capa <strong>de</strong> salida.<br />

RED40. Es la red obtenida para clasificar el grupo <strong>de</strong> 40 agrupamientos.<br />

RED22. Es la red obtenida para clasificar el grupo <strong>de</strong> 22 agrupamientos.<br />

Se preparan dos pruebas estadísticas para confirmar los resultados:<br />

1. Comparar los <strong>de</strong>sempeños <strong>de</strong>l grupo GRUPO40 con la red RED40 con los <strong>de</strong>sempeños<br />

<strong>de</strong>l grupo GRUPO22 con la red RED22 y verificar si los promedios<br />

obtenidos entre ellos son semejantes o diferentes.<br />

2. Comparar los <strong>de</strong>sempeños <strong>de</strong>l grupo GRUPO40 con la red RED40 y la red RED22<br />

y los <strong>de</strong>sempeños <strong>de</strong>l grupo GRUPO22 con la red RED40 y la red RED22, se<br />

intenta analizar el comportamiento cruzando los datos para ambas re<strong>de</strong>s.<br />

190


La prueba estadística usada es el análisis <strong>de</strong> varianza (ANOVA), se preten<strong>de</strong> saber<br />

si distintos tratamientos influyen en los resultados obtenidos, si esto es cierto entonces<br />

se tiene que dar simultáneamente que: el comportamiento <strong>de</strong> los valores sean los más<br />

distintos posible para los distintos tratamientos y a su vez <strong>de</strong>ntro <strong>de</strong> cada grupo los<br />

valores sean los más homogéneos posible. En otras palabras que la variación entre<br />

grupos sea máxima y la variación <strong>de</strong>ntro <strong>de</strong> los grupos sea mínimo..<br />

En la tabla 8.26 se presenta los <strong>de</strong>sempeños obtenidos para 25 corridas (tratamientos)<br />

<strong>de</strong> cada red, se incluye la media y la <strong>de</strong>sviación estándar <strong>de</strong> cada tratamiento.<br />

Cuadro 8.26: Resultados obtenidos.<br />

GRUPO40 GRUPO40 GRUPO22 GRUPO22<br />

N<br />

con con con con<br />

RED40 RED22 RED40 RED22<br />

1 0.98 0.68 0.68 1.00<br />

2 0.93 0.68 0.41 0.91<br />

3 0.98 0.43 0.64 0.95<br />

4 0.90 0.50 0.55 0.86<br />

5 0.85 0.38 0.50 0.82<br />

6 0.95 0.48 0.64 0.91<br />

7 0.93 0.45 0.36 0.91<br />

8 0.95 0.50 0.59 0.91<br />

9 0.83 0.50 0.36 0.82<br />

10 0.85 0.28 0.45 0.82<br />

11 0.95 0.53 0.59 0.91<br />

12 0.95 0.38 0.55 0.91<br />

13 0.90 0.43 0.45 0.86<br />

14 0.88 0.58 0.59 0.82<br />

15 0.93 0.65 0.41 0.91<br />

16 0.93 0.38 0.41 0.91<br />

17 0.90 0.55 0.59 0.86<br />

18 0.95 0.28 0.50 0.91<br />

19 0.90 0.63 0.55 0.86<br />

20 0.88 0.63 0.41 0.86<br />

21 0.95 0.33 0.55 0.91<br />

22 0.90 0.55 0.59 0.86<br />

23 0.90 0.45 0.45 0.86<br />

24 0.95 0.68 0.50 0.95<br />

25 0.88 0.43 0.41 0.86<br />

media 0.91 0.49 0.51 0.89<br />

STD 0.04 0.12 0.09 0.05<br />

media/STD 22.72 4.03 5.54 19.42<br />

191


En la figura 8.71 se presenta un diagrama <strong>de</strong> cajas don<strong>de</strong> se observa la distribución<br />

y la media <strong>de</strong> cada tratamiento.<br />

Figura 8.71: Diagrama <strong>de</strong> cajas <strong>de</strong> cuatro tratamientos.<br />

Analizando estos resultados se pue<strong>de</strong> observar que:<br />

1. Clasificación <strong>de</strong>ntro <strong>de</strong> la red.<br />

Existe una pequeña diferencia entre la media <strong>de</strong>l grupo GRUPO40 con la red<br />

RED40 y la media <strong>de</strong>l grupo GRUPO22con la red RED22. Si la primera media<br />

es mayor que la segunda entonces se pue<strong>de</strong> afirmar que consi<strong>de</strong>rar uno o más<br />

agrupamientos en la imagen proporciona mejores resultados en el diagnóstico que<br />

consi<strong>de</strong>rar siempre un sólo agrupamiento por imagen, confirmándose la hipótesis<br />

<strong>de</strong> la investigación.<br />

Se plantea por lo tanto dos hipótesis:<br />

a) H 1 : Existe diferencia entre los tratamientos.<br />

b) H 0 : No existe diferencia entre los tratamientos.<br />

Se usa la prueba F para validar o <strong>de</strong>scarta la hipótesis H 0 , la probabilidad es <strong>de</strong>l<br />

95 %. En la tabla 8.27 se presenta los resultados obtenidos para la prueba.<br />

El F calculado es 4.82 y el F tabular(3,48) es 3.01. Dado que el F calculado es mayor que<br />

el F tabular(3,48) se rechaza H 0 y por lo tanto se pue<strong>de</strong> afirmar que la variación<br />

entre los grupos es mayor que la variación <strong>de</strong>ntro <strong>de</strong> cada grupo, confirmándose<br />

la hipótesis <strong>de</strong> la investigación.<br />

192


Cuadro 8.27: Tabla ANOVA. 2 tratamientos<br />

Fuente <strong>de</strong> variación Suma <strong>de</strong><br />

cuadrados<br />

GL Media <strong>de</strong><br />

cuadrados<br />

F calc<br />

Entre grupos 0.01 1 0.01 4.82 3.01<br />

Dentro <strong>de</strong> grupos 0.09 48 0.00<br />

Total 0.10 49<br />

F tab(3,48)<br />

2. Clasificación entre re<strong>de</strong>s.<br />

Para confirmar los resultados <strong>de</strong> la prueba anterior se comparan los <strong>de</strong>sempeños<br />

cruzando las re<strong>de</strong>s. Se pue<strong>de</strong> observar que existen diferencias significativas entre<br />

los resultados <strong>de</strong>l grupo GRUPO40 cuando se evalúan con la red RED40 y con la<br />

red RED22, en el primer caso se obtiene mejores resultados (0.91 % vs. 0.49 %).<br />

De igual forma existen diferencias significativas entre los resultados <strong>de</strong>l grupo<br />

GRUPO22 cuando se evalúan con la red RED40 y con la red RED22, en el segundo<br />

caso se obtiene mejores resultados (0.51 % vs. 0.89 %), por lo tanto analizando<br />

solo para el grupo GRUPO40 con la red RED22 y para el grupo GRUPO22 con<br />

la red RED40.<br />

Estas observaciones pue<strong>de</strong>n ser confirmadas con el análisis <strong>de</strong> la prueba ANOVA,<br />

se plantea por lo tanto dos hipótesis:<br />

a) H 1 : Existe diferencia entre los tratamientos.<br />

b) H 0 : No existe diferencia entre los tratamientos.<br />

Se usa la prueba F para validar o <strong>de</strong>scarta la hipótesis H 0 , la probabilidad es <strong>de</strong>l<br />

95 %. En la tabla 8.28 se presenta los resultado obtenidos para la prueba.<br />

El F calculado es 198.91 y el F tabular(3,96) es 2.70. Dado que el F calculado es mayor que<br />

el F tabular(3,96) se pue<strong>de</strong> afirmar que la variación entre los grupos es mayor que la<br />

variación <strong>de</strong>ntro <strong>de</strong> cada grupo.<br />

Cuadro 8.28: Tabla ANOVA. 4 tratamientos<br />

Fuente <strong>de</strong> variación Suma <strong>de</strong> GL Media <strong>de</strong> F calc<br />

cuadrados<br />

cuadrados<br />

Entre grupos 4.02 3 1.34 198.91 2.70<br />

Dentro <strong>de</strong> grupos 0.65 96 0.01<br />

Total 4.67 99<br />

F tab(3,96)<br />

Esto significa que preten<strong>de</strong>r diagnosticar una mamografía don<strong>de</strong> se ha i<strong>de</strong>ntificado<br />

uno o más agrupamientos con un clasificador entrenado para diagnosticar un sólo<br />

agrupamiento por mamografía reduce su <strong>de</strong>sempeño fuertemente.<br />

193


De igual forma preten<strong>de</strong>r diagnosticar una mamografía don<strong>de</strong> se consi<strong>de</strong>ra siempre<br />

un solo agrupamiento con un clasificador entrenado para diagnosticar uno o más<br />

agrupamientos por mamografía reduce su <strong>de</strong>sempeño fuertemente.<br />

8.6. Resumen<br />

Un sistema <strong>de</strong>sarrollado en en MATLAB R Release 12 haciendo uso <strong>de</strong> la base <strong>de</strong><br />

datos <strong>de</strong> la MIAS es usado para validar los procedimientos planteados. El estudio fue<br />

realizado usando 22 imágenes <strong>de</strong> mamografías en las cuales se <strong>de</strong>tectaron 252 calcificaciones<br />

y 40 agrupamientos <strong>de</strong> calcificaciones. Un procedimiento <strong>de</strong> preparación <strong>de</strong> datos<br />

fue realizado para <strong>de</strong>tectar las calcificaciones verda<strong>de</strong>s positivas en cada imagen. En la<br />

etapa <strong>de</strong> experimentación 15 filtros DoG y 51 umbrales fueron usados para i<strong>de</strong>ntificar<br />

las potenciales calcificaciones, en total se logró obtener 1’242,179 puntos, 8,566 puntos<br />

cercanos a un calcificación <strong>de</strong> los cuales 4,612 puntos fueron finalmente seleccionados<br />

como verda<strong>de</strong>ros positivos y representativos <strong>de</strong> alguna calcificación. En la etapa <strong>de</strong><br />

preprocesamiento se calcularon los parámetros <strong>de</strong> cada procedimiento. En la etapa <strong>de</strong><br />

<strong>de</strong>tección <strong>de</strong> señales <strong>de</strong> i<strong>de</strong>ntificaron los 15 filtros DoG y sus 51 umbrales, se calculó el<br />

tamaño <strong>de</strong> la ventana que contiene a la señal, el área mínima fue fijada en 1 pixel y<br />

el área máxima en 77 pixeles, el promedio <strong>de</strong> gris mínimo en 100 y el gradiente <strong>de</strong><br />

gris mínimo en 3. Se pretendió <strong>de</strong>terminar un sólo umbral <strong>de</strong> binarización para cada<br />

filtro DoG que permita maximizar la <strong>de</strong>tección <strong>de</strong> potenciales calcificaciones, lo cual<br />

no fue posible, dado que asignar un sólo umbral al filtro no permite <strong>de</strong>tectar la mayor<br />

cantidad <strong>de</strong> puntos. Se extrajeron los datos <strong>de</strong> 47 características para todos los puntos<br />

<strong>de</strong> la muestra y se aplicaron dos métodos <strong>de</strong> selección <strong>de</strong> características: la matriz <strong>de</strong><br />

correlación y una <strong>de</strong>rivación <strong>de</strong> la búsqueda secuencial hacia a<strong>de</strong>lante, se llega a la conclusión<br />

<strong>de</strong> que el or<strong>de</strong>namiento <strong>de</strong> características basado en la ganancia <strong>de</strong> información<br />

para seleccionar características no logra buenos resultados. Se implementó una heurística<br />

que estima la ganancia <strong>de</strong> información basada en la frecuencia <strong>de</strong> éxitos obtenidos<br />

por cada para <strong>de</strong> características. 40 agrupamientos <strong>de</strong> calcificaciones son <strong>de</strong>tectados<br />

<strong>de</strong>s<strong>de</strong> las 252 calcificaciones i<strong>de</strong>ntificadas hasta la etapa anterior, la técnica hace uso<br />

<strong>de</strong> la <strong>de</strong>nsidad <strong>de</strong> puntos por cm 2 y consi<strong>de</strong>ra calcificaciones <strong>de</strong>ntro <strong>de</strong> un radio <strong>de</strong> 100<br />

pixeles. Se <strong>de</strong>muestra la hipótesis que consi<strong>de</strong>ra que <strong>de</strong>tectar uno o más agrupamientos<br />

en la imagen proporciona mejores resultados en el diagnóstico que consi<strong>de</strong>rar siempre<br />

un sólo agrupamiento por imagen.<br />

194


Capítulo 9<br />

Conclusiones y Trabajos Futuros<br />

9.1. Conclusiones<br />

De los resultados obtenidos en esta investigación he llegado a las siguientes conclusiones,<br />

para facilitar su exposición los presento según el ámbito al que pertenece:<br />

1. Base <strong>de</strong> datos <strong>de</strong> la MIAS.<br />

a) El sistema <strong>de</strong> referencia usado por la base <strong>de</strong> datos, tiene su origen en la<br />

parte inferior izquierda <strong>de</strong> la imagen.<br />

b) El 81.3 % (270) <strong>de</strong> la imágenes tienen diagnóstico benigno y el 15.7 %(52)<br />

<strong>de</strong> las imágenes tienen diagnóstico maligno.<br />

c) Sólo 22 <strong>de</strong> las 25 imágenes con diagnóstico <strong>de</strong> calcificación tienen al menos<br />

una calcificación.<br />

d) En la base <strong>de</strong> datos se pue<strong>de</strong> i<strong>de</strong>ntificar 252 calcificaciones y 40 agrupamientos<br />

<strong>de</strong> calcificaciones.<br />

e) De los 40 agrupamientos, 10 son benignos y 30 son malignos.<br />

f ) 14 <strong>de</strong> las imágenes tienen menos <strong>de</strong> 10 calcificaciones, 5 tienen entre 10 y 20<br />

calcificaciones y 3 tienen más <strong>de</strong> 20 calcificaciones. El promedio es <strong>de</strong> 11.4<br />

<strong>de</strong> calcificaciones por imagen.<br />

2. Preparación <strong>de</strong> los datos.<br />

a) Los datos <strong>de</strong> radio y centroi<strong>de</strong> <strong>de</strong> los hallazgos son útiles si se tratan <strong>de</strong><br />

masas, distorsiones arquitecturales o agrupamientos <strong>de</strong>finidos, pero no son<br />

útiles si se tratan <strong>de</strong> calcificaciones individuales.<br />

b) La información entregada por la base <strong>de</strong> datos <strong>de</strong> la MIAS no incluye el<br />

centroi<strong>de</strong> <strong>de</strong> cada calcificación, por lo que fue necesario <strong>de</strong>sarrollar un procedimiento<br />

para i<strong>de</strong>ntificarlos.<br />

195


c) El procedimiento <strong>de</strong> preparación <strong>de</strong> datos que proporciona mejores resultados<br />

fue aquel que incluye dos activida<strong>de</strong>s: una automática para <strong>de</strong>tectar<br />

la mayor cantidad <strong>de</strong> potenciales calcificaciones y otra manual que trata <strong>de</strong><br />

confirmar si las potenciales calcificaciones correspon<strong>de</strong>n o no a una calcificación.<br />

d) El procedimiento <strong>de</strong> preparación <strong>de</strong> datos logró i<strong>de</strong>ntificar 252 calcificaciones<br />

<strong>de</strong>s<strong>de</strong> 22 mamografías.<br />

3. Preprocesamiento.<br />

a) Cuando mayor es el tamaño <strong>de</strong> la máscara <strong>de</strong>l filtro mediana, la calidad<br />

<strong>de</strong> la imagen obtenida se <strong>de</strong>grada, reduciendo las posibilida<strong>de</strong>s <strong>de</strong> <strong>de</strong>tectar<br />

potenciales calcificaciones.<br />

b) El tamaño <strong>de</strong> la ventana usada para obtener la imagen binaria <strong>de</strong> la imagen<br />

original, influye en el tiempo <strong>de</strong> preprocesamiento, pero no en el <strong>de</strong>sempeño<br />

<strong>de</strong>l sistema.<br />

4. Filtro DoG.<br />

a) No es posible <strong>de</strong>terminar un sólo filtro DoG tal que trabajando individualmente<br />

permita maximizar el número <strong>de</strong> potenciales calcificaciones <strong>de</strong>tectadas<br />

en una mamografía, dado que un filtro DoG permite i<strong>de</strong>ntificar sólo algunos<br />

rangos <strong>de</strong> frecuencia.<br />

b) No es posible <strong>de</strong>terminar un sólo umbral <strong>de</strong> binarización para cada filtro<br />

DoG trabajando individualmente tal que permita maximizar el número <strong>de</strong><br />

potenciales calcificaciones <strong>de</strong>tectadas en una mamografía.<br />

c) No es posible <strong>de</strong>terminar un sólo tamaño <strong>de</strong> filtro DoG y un solo umbral <strong>de</strong><br />

binarización tal que permita maximizar el número <strong>de</strong> potenciales calcificaciones<br />

<strong>de</strong>tectadas en una mamografía, dado que <strong>de</strong>terminado umbral permite<br />

<strong>de</strong>tectar un sólo rango <strong>de</strong> frecuencias <strong>de</strong>scartando el resto <strong>de</strong> rangos.<br />

d) El uso <strong>de</strong> múltiples filtros DoG con diferentes relaciones σ 2 /σ 1 y diferentes<br />

umbrales <strong>de</strong> binarización aplicados a una imagen permiten maximizar el<br />

número <strong>de</strong> potenciales calcificaciones, dado que se pue<strong>de</strong> abarcar la mayor<br />

cantidad <strong>de</strong> frecuencias.<br />

e) Posiblemente a medida que crece la relación σ 2 /σ 1 la capacidad promedio<br />

para <strong>de</strong>tectar potenciales calcificaciones se reduce.<br />

f ) En promedio sólo el 0.37 % <strong>de</strong> los puntos <strong>de</strong>tectados por los 15 filtros DoG en<br />

cascada son verda<strong>de</strong>ros positivos (calcificaciones) y el 99.63 % <strong>de</strong> los puntos<br />

son verda<strong>de</strong>ros negativos.<br />

196


5. Detección <strong>de</strong> calcificaciones.<br />

a) El gradiente <strong>de</strong> gris <strong>de</strong> una calcificación siempre es mayor que cero.<br />

b) En una mamografía en promedio se pue<strong>de</strong>n obtener entre 2,700 a 3,500<br />

puntos cuando se aplica un un filtro DoG con un sólo umbral <strong>de</strong> binarización.<br />

6. Ganancia <strong>de</strong> información.<br />

a) La ganancia <strong>de</strong> información no es influenciado por el número <strong>de</strong> intervalos<br />

<strong>de</strong> discretización, cuando se usa una técnica <strong>de</strong> igual número <strong>de</strong> intervalos<br />

<strong>de</strong> discretización, pero es influenciado por el tamaño y el porcentaje <strong>de</strong> VP<br />

en la muestra.<br />

b) A mayor tamaño <strong>de</strong> la muestra usada para calcular la ganancia <strong>de</strong> información,<br />

la ganancia <strong>de</strong> información promedio <strong>de</strong> una característica se reduce.<br />

c) A mayor proporción <strong>de</strong> VP en la muestra usada para calcular la ganancia<br />

<strong>de</strong> información, la ganancia <strong>de</strong> información promedio <strong>de</strong> una característica<br />

se incrementa.<br />

d) La técnica <strong>de</strong> or<strong>de</strong>namiento <strong>de</strong> las variables en función a la ganancia <strong>de</strong><br />

información no proporciona resultados aceptables para seleccionar características,<br />

dado que en el cálculo <strong>de</strong> la ganancia <strong>de</strong> información es posible<br />

per<strong>de</strong>r información.<br />

e) No se ha encontrado relación entre la ganancia <strong>de</strong> información y el coeficiente<br />

<strong>de</strong> correlación.<br />

7. Estimación <strong>de</strong> la ganancia <strong>de</strong> información.<br />

a) La heurística para estimar la ganancia <strong>de</strong> información, basado en el or<strong>de</strong>namiento<br />

<strong>de</strong> las frecuencias <strong>de</strong> éxito <strong>de</strong> pares <strong>de</strong> características, permite obtener<br />

mejores resultados para seleccionar características que el or<strong>de</strong>namiento<br />

en función a la ganancia <strong>de</strong> información <strong>de</strong> cada característica.<br />

8. Selección <strong>de</strong> características en calcificaciones.<br />

a) Des<strong>de</strong> cada señal se extrae 47 características: 7 características <strong>de</strong> contraste,<br />

7 <strong>de</strong> contraste <strong>de</strong>l fondo, 3 <strong>de</strong> contraste relativo, 20 <strong>de</strong> forma, 6 relacionadas<br />

a los momentos <strong>de</strong> la secuencia <strong>de</strong> contorno y los 4 primeros momentos<br />

invariantes <strong>de</strong> Hu.<br />

b) La matriz <strong>de</strong> correlación permite <strong>de</strong>terminar 4 pares <strong>de</strong> características con<br />

alta correlación lineal, esto son: promedio <strong>de</strong> gris y la mediana, se elimina la<br />

mediana; el promedio <strong>de</strong> gris y la mediana <strong>de</strong>l fondo, se elimina la mediana<br />

<strong>de</strong>l fondo; el factor <strong>de</strong> forma y la compacidad 3 , se elimina la compacidad 3 ;<br />

el área y el área <strong>de</strong>l fondo, se elimina el área <strong>de</strong>l fondo.<br />

197


c) Dado la proporción bastante reducida <strong>de</strong> VP en la muestra he <strong>de</strong>cidido usar<br />

dos indicadores <strong>de</strong> <strong>de</strong>sempeño. el porcentaje <strong>de</strong> VP y el porcentaje <strong>de</strong> éxito.<br />

d) El porcentaje <strong>de</strong> VP y el porcentaje <strong>de</strong> éxito obtenidos por un clasificador<br />

neuronal están relacionados inversamente, un clasificador que preten<strong>de</strong> maximizar<br />

el porcentaje <strong>de</strong> VP no necesariamente maximiza el porcentaje <strong>de</strong> éxito<br />

y viceversa.<br />

e) Las tres características que permiten maximizar el porcentaje <strong>de</strong> VP y el<br />

porcentaje <strong>de</strong> éxito simultáneamente son: el contraste absoluto, la <strong>de</strong>sviación<br />

estándar <strong>de</strong>l gris <strong>de</strong> la calcificación y el momento <strong>de</strong> la secuencia <strong>de</strong> contorno<br />

3. Las dos primeras correspon<strong>de</strong>n a una propiedad <strong>de</strong> contraste y la tercera<br />

a una propiedad <strong>de</strong> forma.<br />

f ) El gradiente <strong>de</strong> gris (contraste absoluto) <strong>de</strong> la señal influye fuertemente para<br />

clasificar una señal en calcificación.<br />

g) Las propieda<strong>de</strong>s <strong>de</strong> contraste proporcionan mayor información que las propieda<strong>de</strong>s<br />

<strong>de</strong> forma <strong>de</strong> la señal para clasificar una señal en calcificación.<br />

h) El <strong>de</strong>sempeño logrado para clasificar señales en calcificaciones, son los siguientes:<br />

70.8 % en clasificar VP y <strong>de</strong>l 85.7 % en clasificar todos los patrones.<br />

9. Detección <strong>de</strong> agrupamientos <strong>de</strong> calcificaciones.<br />

a) Radios pequeños permiten i<strong>de</strong>ntificar gran número <strong>de</strong> agrupamientos, en el<br />

límite inferior el número <strong>de</strong> agrupamientos es igual al número <strong>de</strong> calcificaciones<br />

b) Radios gran<strong>de</strong>s permiten i<strong>de</strong>ntificar grupos <strong>de</strong> calcificaciones separadas, pero<br />

a medida que el radio crece algunos grupos se pue<strong>de</strong>n unir, en el límite superior<br />

el número <strong>de</strong> agrupamientos es uno e incluye a todos las calcificaciones<br />

<strong>de</strong> la mamografía.<br />

c) El radio <strong>de</strong> 100 pixeles permite <strong>de</strong>tectar un número óptimo <strong>de</strong> agrupamiento<br />

<strong>de</strong> calcificaciones.<br />

d) La <strong>de</strong>nsidad <strong>de</strong> calcificaciones por cm 2 es usada como indicador <strong>de</strong>l grado<br />

<strong>de</strong> agrupamiento.<br />

10. Selección <strong>de</strong> características en agrupamiento <strong>de</strong> calcificaciones.<br />

a) Des<strong>de</strong> cada agrupamiento se extrae 30 características: 6 relacionadas con<br />

la forma <strong>de</strong>l agrupamiento, 6 con el área <strong>de</strong> las calcificaciones y 10 con el<br />

contraste <strong>de</strong> las calcificaciones.<br />

b) El indicador <strong>de</strong>l <strong>de</strong>sempeño <strong>de</strong>l clasificador es el porcentaje <strong>de</strong> éxito.<br />

198


c) Las propieda<strong>de</strong>s <strong>de</strong> forma proporcionan mayor información que las propieda<strong>de</strong>s<br />

<strong>de</strong> contraste <strong>de</strong>l agrupamiento ser clasificados en benignos o malignos.<br />

d) Las características que proporcionan los mejores resultados para maximiza el<br />

porcentaje <strong>de</strong> éxito <strong>de</strong>l clasificador son: el diámetro mínimo, el radio mínimo<br />

y el radio promedio. Las tres correspon<strong>de</strong>n a características <strong>de</strong> la forma <strong>de</strong>l<br />

agrupamiento<br />

e) El <strong>de</strong>sempeño logrado para pronosticar el diagnóstico <strong>de</strong> un agrupamiento<br />

es <strong>de</strong>l 91 %.<br />

11. Hipotesis.<br />

a) Pronosticar el diagnóstico <strong>de</strong> una mamografía consi<strong>de</strong>rando uno o más agrupamientos<br />

en la imagen proporciona mejores resultados que consi<strong>de</strong>rar siempre<br />

un sólo agrupamiento por imagen<br />

b) Preten<strong>de</strong>r diagnosticar una mamografía don<strong>de</strong> se ha i<strong>de</strong>ntificado uno o más<br />

agrupamientos con un clasificador entrenado para diagnosticar siempre un<br />

sólo agrupamiento por mamografía reduce su <strong>de</strong>sempeño fuertemente.<br />

c) Preten<strong>de</strong>r diagnosticar una mamografía don<strong>de</strong> se consi<strong>de</strong>ra siempre un solo<br />

agrupamiento con un clasificador entrenado para diagnosticar uno o más<br />

agrupamientos por mamografía reduce su <strong>de</strong>sempeño fuertemente.<br />

199


9.2. Contribuciones<br />

El <strong>de</strong>sarrollo <strong>de</strong> esta investigación ha logrado las siguientes contribuciones.<br />

1. I<strong>de</strong>ntificar el centroi<strong>de</strong> <strong>de</strong> las calcificaciones ubicadas en las 22 imágenes proporcionadas<br />

por la base <strong>de</strong> datos <strong>de</strong> la MIAS, dado que esta información no<br />

está disponible en la base <strong>de</strong> datos.<br />

2. Validar que la técnica basada en el uso <strong>de</strong>l filtro DoG pue<strong>de</strong> i<strong>de</strong>ntificar potenciales<br />

calcificaciones en la imagen.<br />

3. Estructurar un conjunto <strong>de</strong> características a extraer <strong>de</strong>s<strong>de</strong> las calcificaciones. En<br />

la revisión <strong>de</strong> la bibliografía se observó que los autores usaron una amplia variedad<br />

<strong>de</strong> características empleadas en diferentes circunstancias y con variados supuestos.<br />

4. Obtener un or<strong>de</strong>namiento <strong>de</strong> las características i<strong>de</strong>ntificadas, tomando en consi<strong>de</strong>ración<br />

el indicador <strong>de</strong> ganancia <strong>de</strong> información. El or<strong>de</strong>namiento permite <strong>de</strong>scartar<br />

las características ubicadas al final <strong>de</strong> la lista.<br />

5. Desarrollar un procedimiento parametrizable, tal que ante variaciones en el origen<br />

<strong>de</strong> los datos (otras bases <strong>de</strong> datos, otro equipo <strong>de</strong> digitalización u otro nivel <strong>de</strong><br />

resolución <strong>de</strong> la imagen) se pue<strong>de</strong> adaptar el sistema sin alteraciones sustanciales<br />

en los procedimientos. Se requiere modificar los parámetros pero no la estructura<br />

<strong>de</strong>l sistema.<br />

6. Determinar que el uso <strong>de</strong> múltiples filtros DoG aplicados en cascada proporciona<br />

mejores resultados que aplicar un sólo filtro DoG a la imagen y que este resultado<br />

pue<strong>de</strong> ser mejorado si se aplican diferentes umbrales <strong>de</strong> binarización para la<br />

imagen generada.<br />

7. Brindar al radiólogo un sistema <strong>de</strong> apoyo en el proceso <strong>de</strong> diagnóstico.<br />

200


9.3. Trabajos futuros<br />

En el transcurso <strong>de</strong> la investigación se han presentando una serie <strong>de</strong> problemas,<br />

alguno <strong>de</strong> los cuales fueron abordados, resueltos e implementados, pero en algunos<br />

casos no fue posible implementarlos dado las limitaciones <strong>de</strong> tiempo, entre los temas<br />

que pue<strong>de</strong>n ser consi<strong>de</strong>rados para ampliar esta investigación tenemos:<br />

1. Estudiar la correspon<strong>de</strong>ncia que existe entre la frecuencia espacial <strong>de</strong> la imagen<br />

y la relación σ 2 /σ 1 .<br />

2. Investigar si el tamaño <strong>de</strong> la ventana que contiene a la calcificación afecta el<br />

<strong>de</strong>sempeño <strong>de</strong> sistema, en esta investigación es <strong>de</strong> 9x9, don<strong>de</strong> 5 pixeles correspon<strong>de</strong><br />

a la calcificación y 2 pixeles al fondo.<br />

3. Investigar técnicas para la discretización <strong>de</strong> datos que permitan obtener un buen<br />

estimador <strong>de</strong> la ganancia <strong>de</strong> información <strong>de</strong> una variable continua.<br />

4. Investigar si la resolución <strong>de</strong> la imagen influye en la efectividad <strong>de</strong>l sistema, ante<br />

el mismo conjunto <strong>de</strong> 15 filtros DoG y los 51 umbrales <strong>de</strong> binarización.<br />

5. Determinar si las propieda<strong>de</strong>s benigna/maligna aplicados a las mamografías y<br />

a los agrupamientos <strong>de</strong> calcificaciones pue<strong>de</strong> ser asignado a las calcificaciones<br />

individuales, dado que se menciona que aquellas con diámetros menores a 1.0<br />

mm son probablemente malignas y aquellas con diámetros mayores a 1.0 mm<br />

son benignas, y por otro lado la presencia <strong>de</strong> calcificaciones aisladas no tiene<br />

significancia para diagnosticar la mamografía.<br />

6. I<strong>de</strong>ntificar la mejor arquitectura <strong>de</strong> la red neuronal que permita mejorar el <strong>de</strong>sempeño<br />

<strong>de</strong> los clasificadores usados en la investigación.<br />

7. Implementar nuevas características que se pue<strong>de</strong>n extraer <strong>de</strong>s<strong>de</strong> cada mamografía.<br />

8. Implementar el sistema haciendo uso <strong>de</strong> otras bases <strong>de</strong> datos <strong>de</strong> mamografías.<br />

9. Comparar el <strong>de</strong>sempeño <strong>de</strong> la técnica con otras técnicas tales como Máquinas <strong>de</strong><br />

vector <strong>de</strong> soporte, Laplaciano <strong>de</strong>l Gaussiano, Wavelets y Mo<strong>de</strong>los fractales<br />

10. Estudiar los resultados obtenidos para la <strong>de</strong>tección <strong>de</strong> calcificaciones y <strong>de</strong> agrupamiento<br />

<strong>de</strong> calcificaciones usando la curva ROC.<br />

201


Bibliografía<br />

[1] A.Bazzani, A.Bevilacqua, D.Bollini, R.Brancaccio, R.Campanini, N.Lanconelli,<br />

A.Riccardi, D.Romani, and G.Zamboni. Automatic <strong>de</strong>tection of clustered microcalcifications<br />

in digital mammograms using a svm classifier. pages 161–167,<br />

2000.<br />

[2] M.L. Antonie, O. Zaïane R., and A. Coman. Aplication of data mining techniques<br />

for medical image classification. In Second Internacional Workshop on Multimedia<br />

Data Minino. MDM/KDD 2001, San Francisco, CA, USA, 2001.<br />

[3] I. Anttinen, M. Pamilo, M. Soiva, and M. Roiha. Double reading of mammography<br />

screening films: one radiologist or two? Clin Radiol, (48):414–421, 1993.<br />

[4] I. Valdivia B. Resultados falsos positivos en programas <strong>de</strong> <strong>de</strong>tención <strong>de</strong> cáncer<br />

mamario: Resultados a 10 años. Boletín <strong>de</strong> la Sociedad Chilena <strong>de</strong> Climaterio,<br />

3(1):5–9, 1998.<br />

[5] A. Bazzani, D. Bollini, R. Brancaccio, R. Campanini, N. Lanconelli, and D. Romani.<br />

System for automatic <strong>de</strong>tection of clustered microcalcifications in digital<br />

mammograms. International Journal of Mo<strong>de</strong>rn Physics C, 11(5):901–912, 2000.<br />

[6] D. Betal, N. Roberts, and G.H. Whitehouse. Segmentation and numerical analysis<br />

of microcalcifications om mammograms using mathematical morphology. The<br />

British Journal of Radiology, (70):903–917, 1997.<br />

[7] L. Bocchi, G. Coppini, J.Ñori, and G. Valli. Detection of single and clustered<br />

microcalcifications in mammograms using fractals mo<strong>de</strong>ls and neural <strong>net</strong>works.<br />

Med Eng Phys, 26(4):303–12, 2004.<br />

[8] A. C. Bovik, T. S. Huang, and Jr. D. C. Munson. The effect of median filtering<br />

on edge estimation and <strong>de</strong>tection. IEEE Transactions on Pattern Analysis and<br />

Machine Intelligence, 9(2):181 – 194, 1987.<br />

[9] F. Calero C. Factores <strong>de</strong> riesgo en cancer <strong>de</strong> mama. Progresos <strong>de</strong> Obstetricia y<br />

Ginecología, 42(90):9065–9088, 1999.<br />

203


[10] R. Campanini, A. Bazzani, A. Bevilacqua, D. Bollini, D.N. Dongiovanni,<br />

E. Iampieri, N.Lanconelli, A. Riccardi, M. Roffilli, and R. Tazzoli. A novel approach<br />

to mass <strong>de</strong>tection in digital mammography based on support vector machines<br />

(svm). In Proc. of IWDM2002, pages 399–401, Bremen, Germany, June<br />

22-25, 2002, 2002.<br />

[11] C. A. Castro, T.S. Pérez, J.M. González Barcena, and J. R. Santiago. Interferón<br />

y cáncer <strong>de</strong> mama avanzado. Revista Cubana <strong>de</strong> Oncología, 15(2):89–94, 1999.<br />

[12] H.P. Chan, K. Doi, and S. Galhotra. Image feature analysis and computer-ai<strong>de</strong>d<br />

diagnosis in digital radiograohy. 1. automated <strong>de</strong>tection of microcalcifications in<br />

mammography. Med. Phys., 14:538–548, 1987.<br />

[13] H.P. Chan, K. Doi, C. J. Vyborny, K. L. Lam, and R. A. Schmidth. Computerai<strong>de</strong>d<br />

<strong>de</strong>tection of microcalcifications im mammograms: Metodology and preliminary<br />

clinical study. Invest. Radiol., 23:664–671, 1988.<br />

[14] H. D. Cheng, Y.M. Lui, and R. I. Freimanis. A novel approach to microcalcification<br />

<strong>de</strong>tection using fuzzy logic technique. IEEE Transactions on Medical Imaging,<br />

17(3):442–450, 1998.<br />

[15] S. Ciatto, MR. Del Turco, G. Risso, S. Catarzi, R. Bonardi, V. Viterbo, P. Gnutti,<br />

B. Guglielmoni, L. Pinelli, A. Pandiscia, F.Ñavarra, A. Lauria, R. Palmiero, and<br />

PL. Indovina PL. Comparison of standard reading and computer ai<strong>de</strong>d <strong>de</strong>tection<br />

(cad) on a national proficiency test of screening mammography. European Journal<br />

of Radiology, 45(2):135–8, 2003.<br />

[16] M. L. Comer, S. Liu, and E. J. Delp. Statistical segmentation of mammograms.<br />

In 3rd International Workshop on Digital Mammography, June 9-12, 1996, pages<br />

475–478, Chicago, Illinois, 1996.<br />

[17] L.P. Cor<strong>de</strong>lla, F. Tortorela, and M. Vento. Combining experts with different features<br />

for classifying clustered microcalcifications in mammograms. In International<br />

Conference on Pattern Recognition (ICPR’00)-Volume 4 (September 03-08), page<br />

4324, Barcelona, Spain, 2000.<br />

[18] L. da Fontoura and R. Marcon<strong>de</strong>s. Shape Analysis and Classification. Theory an<br />

Practice. CRC Press, 2001.<br />

[19] Kopans DB. Standardized mammography reporting. Radiologic Clinics of North<br />

America, 30(1):257–64, 1992.<br />

[20] J. Dengler, S. Behrens, and J.F. Desaga. Segmentation of microcalcifications in<br />

mammograms. IEEE Trans. Med. Imag., 12(4), 1993.<br />

204


[21] A. Dhawan, Y. Chitre, and C. Kaiser-Sonnaso. Analysis of mammographic microcalcificactions<br />

using gray-level image structure features. IEEE Transactions on<br />

Medical Imaging, 15(3):246–258, 1996.<br />

[22] J.M. Dinten, M. Darboux, and E.Ñicolas. Feature extraction for a precise characterization<br />

of microcalcifications in mammograms. In ICIP96: IEEE International<br />

Conference on Image Processing, page 16A8, 1996.<br />

[23] W. M. Diyana, J. Larcher, and R. Besar. A comparison of clustered microcalcifications<br />

automated <strong>de</strong>tection methods in digital mammogram. In ICASSP 2003,<br />

editor, IEEE International Conference on Acoustics, Speech, and Signal Processing.<br />

April 6-10, 2003, Hong Kong Convention and Exhibition Center, 2003.<br />

[24] S. De Pare<strong>de</strong>s E. Radiographic breast anatomy: Radiologic signs of breast cancer,<br />

Syllabus: a categorical course in physics - Technical aspects of breast imaging. M<br />

Yaffe ed., Oak Brook, IL, RSNA Publications, 1993.<br />

[25] B. Efron and R. Tibshirani. An introduction to the bootstrap. Journal of the<br />

National Cancer Institute, 94(18):1373–80, 2002.<br />

[26] R. Egan. Breast Imaging: Diagnosis and Morphology of Breast Diseases. Phila<strong>de</strong>lphia.<br />

W.B. Saun<strong>de</strong>rs Company, 1988.<br />

[27] I. El-Naqa, Y. Yang, M.Ñ. Wernick, N. P. Galatsanos, and R. M. Nishikawa. A<br />

support vector machine approach for <strong>de</strong>tection of microcalcifications. IEEE Transactions<br />

on Medical Imaging, 21(12):1552–1563, 2002.<br />

[28] J.G. Elmore, D. L. Miglioretti, L. M. Reisch, M. B. Barton, W. Kreuter, C. L.<br />

Christiansen, and S. W. Fletcher. Screening mammograms by community radiologists:variability<br />

in false-positive rates. Journal of the National Cancer Institute,<br />

94(18):1373–80, 2002.<br />

[29] S. A. Feig, B. M. Galkin, and H.D. Muir. Evaluation of breast microcalcifications<br />

by means of optically magnified tissue specimen radiographs. Recent Results in<br />

Cancer Research, 105:111–123, 1987.<br />

[30] R. J. Ferrari, R. M. Rangayyan, J. E. L. Desautels, and A. F. Frére. Analysis of<br />

asymmetry in mammograms via directional filtering with gabor wavelets. IEEE<br />

Transactions on Medical Imaging, 20(9):953–964, 2001.<br />

[31] H. Führ, O. Treiber, and F. Wanninger. Cluster-oriented <strong>de</strong>tection of microcalcifications<br />

in simulated low-dose mammography. Bildverarbeitung für die Medizin,<br />

pages 96–100, 2003.<br />

205


[32] J. C. Fu, S. K. Lee, C. H. Wen, M. L. Tsai, and H. M. Lin. Image enhancement,<br />

feature extraction and classification of microcalcifications in mammograms. Chin<br />

J Radiol, 28:217–230, 2003.<br />

[33] M. A. Ganott, K. M. Harris, , H. M. Klaman, and T. L. Keeling. Analysis of falsenegative<br />

cancer cases i<strong>de</strong>ntified with a mammography audit. The Breast Journal,<br />

5(3):166, 1999.<br />

[34] M. A. Gavrieli<strong>de</strong>s. Phd thesis: A computer aid for the <strong>de</strong>tection of suspicious<br />

microcalcification clusters in digitized mammograms. Master’s thesis, Duke University,<br />

December 2002.<br />

[35] R. C. González and R.E Woods. Digital Image Processing. Addinson Wesley Pub.<br />

CO. Readding., 1992.<br />

[36] J. M. Alonso Gordo. Cancer <strong>de</strong> mama. manejo <strong>de</strong>s<strong>de</strong> atención primaria. SEMER-<br />

GEN, 26:491–501, 2000.<br />

[37] R. Gordon and R. M. Rangayyan. Feature enhancement of film mammograms<br />

using fixed and adaptive neighborhoods. Applied Optics, 23(4):560–564, 1984.<br />

[38] R. Gresson, R. Taktak, and D. Wolf. Automated <strong>de</strong>tection and separation of<br />

microcalcifications by multi-scale analysis of the t. h. t., 1990.<br />

[39] T. O. Gulsrud. Analysis of mammographic microcalcifications using a computationally<br />

efficient filter bank..sikt. In SIKT-rapport nr.: SIKTPR-7/2, Høgskolen i<br />

Stavanger, 21. Mars 2001, 2001.<br />

[40] T. O. Gulsrud. Computer-ai<strong>de</strong>d diagnosis in digital mammography. In Stavanger<br />

University College, Department of Electrical and Computer Engineering,<br />

Stavanger, Norway, 2002.<br />

[41] T. O. Gulsrud and J. H. Husøy. Detection of clustered microcalcifications in compressed<br />

mammograms. In SIKT-rapport nr.: SIKTPR-7/2, Høgskolen i Stavanger,<br />

21. Mars 2001, 2001.<br />

[42] T. O. Gulsrud, J. H. Husøy, and H. Stavanger. Optimal filter for <strong>de</strong>tection of<br />

clustered microcalcifications. In International Conference on Pattern Recognition<br />

(ICPR’00) September 03 - 08, 2000, volume 1, Barcelona, Spain, 2000.<br />

[43] L. Gupta and M. D. Srinath. Contour sequence moments for the classification of<br />

closed planar shapes. Pattern Recogn., 20(3):267–272, 1987.<br />

206


[44] S. Halkiotis, J. Mantas, and T. Botsis. Computer-ai<strong>de</strong>d <strong>de</strong>tection of clustered<br />

microcalcifications in digital mammograms. In 5th European Conferece in Systimic<br />

Science, Creta, 2002.<br />

[45] S. Hayken. Neural <strong>net</strong>works. A comprehensive foundation. Nueva York. Macmillan,<br />

1994.<br />

[46] M. Heath, K.W. Bowyer, and D. Kopans. Tcurrent status of the digital database<br />

for screening mammography. Digital Mammography, Kluwer Aca<strong>de</strong>mic Publishers,<br />

pages 457–460, 1998.<br />

[47] A. Hoekstra. Generalisation in feed forward neural classifiers. Master’s thesis,<br />

Technische Universiteit Delft, Octubre 1998.<br />

[48] M. K. Hu. Visual pattern recognition by moment invariants. IEEE Trans. Inform.<br />

Theory, IT-(8):19–187, 1962.<br />

[49] N. Ibrahim, H. Fujita, T. Hara, and T. Endo. Automated <strong>de</strong>tection of clustered<br />

microcalcifications on mammograms: Cad system application to mias database.<br />

Physics in Medicine and Biology, 42(12):2577–2589, 1997.<br />

[50] N. Karssemeijer and G. Brake. Detection od stellate distortions in mammograms.<br />

IEEE Transactions on Medical Imaging, 15(5):611, 1996.<br />

[51] J. Kook Kim and H. Wook Park. Statistical textural features for <strong>de</strong>tection of microcalcifications<br />

in digitized mammograms. IEEE Transactions on Medical Imaging,<br />

18(3):231–238, 1999.<br />

[52] D. Koller and M. Sahami. Toward optimal feature selection. In International<br />

Conference on Machine Learning, pages 284–292, Bari, Italy, 1996.<br />

[53] A. Kozlov and D. Koller. Nonuniform dynamic discretization in hybrid <strong>net</strong>works.<br />

In Proceedings of the 13th Annual Conference on Uncertainty in AI (UAI),, pages<br />

314–325, Provi<strong>de</strong>nce, Rho<strong>de</strong> Island, August 1997, 1997.<br />

[54] K. Kurkova. Kolmogorov’s Theorem. The Handbook of Brain Theory and Neural<br />

Networks, pp. 501-502. MIT Press, 1995.<br />

[55] M. J. Lado, P. G. Tahoces, A. J. Mén<strong>de</strong>z, M. Souto, and J. J. Vidal. Evaluation of<br />

an automated wavelet-based system <strong>de</strong>dicated to the <strong>de</strong>tection of clustered microcalcifications<br />

in digital mammograms. In Departamento <strong>de</strong> Radiología, Facultad<br />

<strong>de</strong> Medicina, Universidad <strong>de</strong> Santiago <strong>de</strong> Compostela, C/San Francisco, Santiago,<br />

Spain, 1998.<br />

207


[56] L. Lasztovicza, B. Pataki, N. Székely, and N. Tóth. Neural <strong>net</strong>work based microcalcification<br />

<strong>de</strong>tection in a mammographic cad system. In Intelligent Data Acquisition<br />

and Advanced Computing Systems: Technology and Applications (IDAACS’2003),<br />

September 8 - 10, Lviv, Ukraine, 2003.<br />

[57] F. Lefebvre, H. Benali, R. Gilles, E. Kahn, and R. Di Paola. A fractal approach<br />

to the segmentation of microcalcifications in digital mammograms. Med Phys,<br />

22(4):381–90, 1995.<br />

[58] G. Lemaur, K. Drouiche, and J. DeConinck. Highly regular wavelets for the <strong>de</strong>tection<br />

of clustered microcalcifications in mammograms. IEEE Transactions On<br />

Medical Imaging, 25(3):393–401, 2003.<br />

[59] H. Li, KJ. Liu, and SC Lo. Fractal mo<strong>de</strong>ling and segmentation for the enhancement<br />

of microcalcifications in digital mammograms. IEEE Trans Med Imaging,<br />

16(6):785–98, 1997.<br />

[60] M.G. Linguraru, J.M. Brady, and M. Yam. Detection of microcalcifications using<br />

smf. In 6th International Workshop on Digital Mammography, Lecture Notes in<br />

Computer Scienc, Springer Verlag Berlin Hei<strong>de</strong>lberg, 2002.<br />

[61] J. Liu, W. Hwang, and M. Chen. Estimation of 2-d noisy fractional brownian motion<br />

and its applications using wavelets. IEEE Transactions on Image Processing,<br />

9(8):1407, 2000.<br />

[62] G. MeGarry. Performance of the generalized gaussian distribution for <strong>de</strong>tection<br />

of calcifications in mammographic images. In Signal Processing Research Centre,<br />

Queensland University of Technology, GPO Box 2434, Brisbane QLD 4001,<br />

Australia, 1999.<br />

[63] M. Melloul and L. Joskowicz. Segmentation of microcalcification in x-ray mammograms<br />

using entropy thresholding. In CARS/Springer., editor, Computer Assisted<br />

Radiology and Surgery. CARS 2002, 2002.<br />

[64] AI. Mushlin, RW. Koui<strong>de</strong>s, and DE. Shapiro. Estimating the accuracy of screening<br />

mammography: a meta-analysis. Am J Prev Med, 14(2):143–53, 1998.<br />

[65]<br />

T.Ñetsch. A scale-space approach for the <strong>de</strong>tection of clustered microcalcifications<br />

in digital mammograms. In 3th International Workshop on Digital Mammography,<br />

pages 301–306, Chicago, IL, 1996.<br />

[66] R. M. Nishikawa. Computer ai<strong>de</strong>d <strong>de</strong>tection of clustered microcalcification: An<br />

improved method for grouping <strong>de</strong>tected signals. Medical Physics., 20(6):1661–66,<br />

1993.<br />

208


[67]<br />

I.Ñorhayati, F. Hiroshi, H. Takeshi, and E. Tokiko. Automated <strong>de</strong>tection of<br />

clustered microcalcifications on mammograms: Cad system application to mias<br />

database. Phys. Med. Biol, 42:2577–2589, 1997.<br />

[68] Triona O’Doherty. Review of the effective image processing techniques of mammograms.<br />

[69] American Collage of Radiology. Breast imaging reporting and data system (BI-<br />

RADS). 3rd ed. Reston, Va: American Collage of Radilogy, 1998.<br />

[70] A. Papadopoulosa, D.I. Fotiadisb, and A. Likasb. An automatic microcalcification<br />

<strong>de</strong>tection system based on a hybrid neural <strong>net</strong>work classifier. Artificial Intelligence<br />

in Medicine, (25):149–167, 2002.<br />

[71] W. E. Polakowski, D. A. Cournoyer, S. K. Rogers, M. P. DeSimio, J. W. Hoffmeister<br />

D. W. Ruck, and R. A. Raines. Computer-ai<strong>de</strong>d breast cancer <strong>de</strong>tection and diagnosis<br />

of masses using difference of gaussians and <strong>de</strong>rivative-based feature saliency.<br />

IEEE Trans. Med. Imag., 16(6):811–19, 1997.<br />

[72] R. M. Rangayyan, N. M. El-Faramawy, J.E. Leo Desautels, and O. A. Alim. Measures<br />

of acurate and shape for classification of breast tumors. IEEE Transactions<br />

on Medical Imaging, 16(6):799–810, 1997.<br />

[73] I.W. Ricketts, A.Y. Cairns, D. Folkes, M.Ñimmo, P.E. Preece, A. Thompson, and<br />

C. Walker. The automated <strong>de</strong>tection of clusters of microcalcifications. In IEE<br />

Colloquium: Applications of Image Processing in Mass Health Screening, Digest<br />

No 1992/056, pages 13–15, London March, 1992.<br />

[74] J. C. Russ. The Image Processing Handbook Third Edition. CRC Press, IEEE<br />

Press, 1999.<br />

[75] P. Sajda, C. Spence, and J. Pearson. Learning contextual relationships in mammograms<br />

using a hierarchical pyramid neural <strong>net</strong>work. IEEE Transactions On<br />

Medical Imaging, 21(3):239–250, 2002.<br />

[76] M. F. Salfity, G. H. Kaufmann, P. Granitto, and H. A. Ceccatto. Automated <strong>de</strong>tection<br />

and classification of clustered microcalcifications using morphological filtering<br />

and statistical techniques. In 5th International Workshop on Digital Mammography,<br />

Toronto, Canada, 2000.<br />

[77] R. J. Schalkoff. Digital Image Processing and Computer Vision. John Wiley and<br />

Sonc Inc. New York, USA, 1989.<br />

209


[78] Y. Shen and M. Zelen. Screening sensitivity and sojourn time from breast cancer<br />

early <strong>de</strong>tection clinical trials. mammograms and physical examinations. Journal<br />

of Clinical Oncology, 19(15):3490–9, 2001.<br />

[79] B. Shih-Chung, H. Li, Yue Wang, L Kinnard, and M. T. Freedman. A multiple<br />

circular path convolution naural <strong>net</strong>work system for <strong>de</strong>tection of mammographic<br />

masses. IEEE Transactions on Medical Imaging, 21(2):150–158, 2002.<br />

[80] J. Sklansky, E.Y. Tao, C. Omes, and A.C. Disher. A neurodatabase system for<br />

mammographic screening. In IEES Press, editor, Eleventh IEEE Symposium on<br />

Computer-Based Medical Systems, June 12 - 14, 1998, pages 78–83, Lubbock,<br />

Texas, 1998.<br />

[81] M. Stone. Cross-validation choice and assessment of statistical predictions. 1993.<br />

[82] G. Strausz, G. Horváth, B. Pataki, L. Lasztovicza, and N. Székely. Intelligent solution<br />

for mammography image diagnosis. In EANN 2003, Engineering Application<br />

of Neural Networks Conference, 8-10 September, Universidad <strong>de</strong> Malaga, Malaga<br />

- Spain, 2003.<br />

[83]<br />

R.Ñ. Strickland and H. L. Hahn. A wavelet transforms methods for object <strong>de</strong>tection<br />

and recovery. IEEE Trans. Image Processing, 6:724–735, 1997.<br />

[84] J. Suckling, J. Parker, D. Dance, S. Astley, I. Hutt, C. Boggis, I. Ricketts,<br />

E. Stamatakis, N. Cerneaz, S. Kok, P. Taylor, D. Betal, and J. Savage.<br />

The mammographic images analysis society digital mammogram database<br />

(mias@sv1.smb.man.ac.uk). Exerpta Medica. International Congress Series,<br />

1069:375–378, 1994.<br />

[85] EL. Thurfjell, KA. Lernevall, and AAS. Taube. Benefit of in<strong>de</strong>pen<strong>de</strong>nt double reading<br />

in a population-based mammography screening program. Radiology, (191):241–<br />

244, 1994.<br />

[86] O. Treiber, F. Wanninger, H. Führ, W. Panzer, D. Regulla, and G. Winkler. An<br />

adaptive algorithm for the <strong>de</strong>tection of microcalcifications in simulated low-dose<br />

mammography. GSF - National Research Center for Environment and Health,<br />

pages 1–24, 2002.<br />

[87] M. Ustymowicz and M.Ñieniewski. Clustering microcalcifications in mammograms<br />

by means of morphology based strategy. In Fourth IEEE Benelux Signal Processing<br />

Symposium, April 15-16, 2004, page Paper 114, Hilvarenbeek, The Netherlands,<br />

2004.<br />

210


[88] K. S. Woods. Automated image analysis techniques for digital mammography.<br />

Master’s thesis, University of South Florida, December 1994.<br />

[89] A. Wróblewska, P. Boninski, A. Przelaskowski, , and M. Kazubek. Segmentation<br />

and feature extraction for reliable classification of microcalcifications in digital<br />

mammograms. Opto Electronics Review, 11(3):227–235, 2003.<br />

[90] C. Y. Wu, O. Tsujii a, M. T. Freedman, and S. K. Mun. Image feature analysis<br />

for classification of microcalcifications in digital mammography: neural <strong>net</strong>works<br />

and ge<strong>net</strong>ic algorithms. In Hanson Ed, editor, SPIE–The International Society for<br />

Optical Engineering, volume 3034, pages 499–507, 1997.<br />

[91] S. Yu and L. Guan. A cad system for the automatic <strong>de</strong>tection of clustered microcalcifications<br />

in digitized mammogram films. IEEE Transactions On Medical<br />

Imaging, 19(2):115–126, 2000.<br />

[92] Songyang Yu and Ling Guan. A cad systems for the automatic <strong>de</strong>tection of clustered<br />

microcalcifications in digitized mammogram films. IEEE Transaction on<br />

Medical Imaging, 19(2):115–126, 2000.<br />

[93] D. Zhao, M. Shridhar, and D.G. Daut. Morphology on <strong>de</strong>tection of calcifications<br />

in mammograms. In IEEE International Conference on Acoustics, Speech, and<br />

Signal Processing, ICASSP-92, volume 3, pages 129–132, 1992.<br />

211


Vita<br />

Samuel Alonso Oporto Díaz nació en Perú, Departamento <strong>de</strong> Lima, el 3 <strong>de</strong> enero <strong>de</strong><br />

1967. Se graduó como Ingeniero <strong>de</strong> Sistema por la Universidad Nacional <strong>de</strong> Ingeniería,<br />

en Diciembre <strong>de</strong> 1992.<br />

En Enero <strong>de</strong>l 2003, ingresó al Instituto Tecnológico y <strong>de</strong> Estudios Superiores <strong>de</strong><br />

Monterrey, Campus Monterrey a la Maestría en Ciencias con Especialidad en Sistemas<br />

Inteligentes. La cual terminó en Diciembre <strong>de</strong>l 2004.<br />

Dirección permanente: Jr. José Valencia 250<br />

Magdalena <strong>de</strong>l Mar<br />

Lima<br />

Perú<br />

0051-1-263-8817<br />

soporto@aurigacorp.com.pe<br />

La presente tesis fue tipografiada con L A TEX 1 por Samuel Alonso Oporto Díaz.<br />

1 El paquete <strong>de</strong> macros, ITESMtesis.sty, utilizado en el formateo <strong>de</strong> esta tesis fue escrito por<br />

el Dr. Horacio Martínez Alfaro , Profesor Asociado <strong>de</strong>l Centro <strong>de</strong><br />

Inteligencia Artificial <strong>de</strong>l Instituto Tecnológico y <strong>de</strong> Estudios Superiores <strong>de</strong> Monterrey, Campus<br />

Monterrey.<br />

213

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!