12.07.2015 Views

Modelos de predicción clínica en estudios de supervivencia ...

Modelos de predicción clínica en estudios de supervivencia ...

Modelos de predicción clínica en estudios de supervivencia ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

MODELOS DEPREDICCIÓN CLÍNICA EN ESTUDIOS DESUPERVIVENCIACOMPARACIÓN DE DOS CLASIFICACIONES EN ELPRONÓSTICO DE PACIENTES CON SÍNDROMEMIELODISPLÁSICOAutora: Vanessa Balboa BarreiroDirectores: Francisco Gu<strong>de</strong> Sampedro y César Sánchez SelleroMáster <strong>en</strong> Técnicas EstadísticasJulio 2013


Índice g<strong>en</strong>eral1. Introducción 31.1. Descripción <strong>de</strong> la <strong>en</strong>fermedad . . . . . . . . . . . . . . . . . . . . . . . . . 31.2. Índices <strong>de</strong> pronóstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3. Datos disponibles <strong>en</strong> la unidad epi<strong>de</strong>miológica <strong>de</strong>l Hospital Clínico Universitario<strong>de</strong> Santiago <strong>de</strong> Compostela . . . . . . . . . . . . . . . . . . . . . . . 81.4. Objetivos <strong>de</strong>l estudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.5. Estructura <strong>de</strong>l trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92. Análisis <strong>de</strong> superviv<strong>en</strong>cia 112.1. C<strong>en</strong>sura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2. Funciones elem<strong>en</strong>tales asociadas al tiempo <strong>de</strong> vida . . . . . . . . . . . . . . 132.3. Estimador <strong>de</strong> Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . . . . . 153. Curvas ROC 193.1. S<strong>en</strong>sibilidad y especificidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.2. Descripción <strong>de</strong> una curva ROC . . . . . . . . . . . . . . . . . . . . . . . . 213.2.1. Construcción <strong>de</strong> la curva ROC . . . . . . . . . . . . . . . . . . . . . 221


ÍNDICE GENERAL3.2.2. Curva ROC <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l tiempo . . . . . . . . . . . . . . . . . . 223.2.3. Área bajo la curva . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.3. Estimación <strong>de</strong> las curvas ROC . . . . . . . . . . . . . . . . . . . . . . . . . 233.4. Resultados para los datos <strong>de</strong> SMD . . . . . . . . . . . . . . . . . . . . . . . 244. Evaluación <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong> pronóstico 294.1. Ajuste g<strong>en</strong>eral: Puntuación <strong>de</strong> Brier . . . . . . . . . . . . . . . . . . . . . . 294.2. Discriminación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314.2.1. Índice <strong>de</strong> concordancia C . . . . . . . . . . . . . . . . . . . . . . . . 324.3. Reclasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344.3.1. Mejora neta <strong>de</strong> reclasificación . . . . . . . . . . . . . . . . . . . . . 345. Nueva propuesta con el mo<strong>de</strong>lo <strong>de</strong> regresión <strong>de</strong> Cox 415.1. Contrastes <strong>de</strong> hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.1.1. Test <strong>de</strong> razón <strong>de</strong> verosimilitud . . . . . . . . . . . . . . . . . . . . . 425.1.2. Test <strong>de</strong> Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435.1.3. Test <strong>de</strong> las puntuaciones (score test) . . . . . . . . . . . . . . . . . 435.2. Análisis <strong>de</strong> residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446. Otras aplicaciones realizadas <strong>en</strong> la Unidad <strong>de</strong> Epi<strong>de</strong>miología 512


Capítulo 1IntroducciónLos mo<strong>de</strong>los diagnósticos y pronósticos son muy comunes <strong>en</strong> Medicina, sobre todo <strong>en</strong>Medicina Clínica, y forman una parte importante <strong>de</strong> la investigación que se lleva a cabo<strong>en</strong> los hospitales y c<strong>en</strong>tros <strong>de</strong> at<strong>en</strong>ción primaria. Entre sus usos se pue<strong>de</strong>n <strong>de</strong>stacar:Difer<strong>en</strong>ciar estados <strong>de</strong> la <strong>en</strong>fermedad.Clasificar la severidad <strong>de</strong> la <strong>en</strong>fermedad.Evaluar el riesgo <strong>de</strong> pres<strong>en</strong>tar futuras <strong>en</strong>fermeda<strong>de</strong>s.Estratificar el riesgo con el objetivo <strong>de</strong> tomar <strong>de</strong>cisiones diagósticas o terapéuticas.Los mo<strong>de</strong>los diagnósticos y pronósticos ti<strong>en</strong><strong>en</strong> propósitos difer<strong>en</strong>tes. La diagnosis se ocupa<strong>de</strong> indagar acerca <strong>de</strong>l estado actual <strong>de</strong>l paci<strong>en</strong>te tratando <strong>de</strong> i<strong>de</strong>ntificar la exist<strong>en</strong>cia <strong>de</strong>una <strong>en</strong>fermedad hasta ese mom<strong>en</strong>to <strong>de</strong>sconocida, por ejemplo un cáncer. Los mo<strong>de</strong>lospronósticos aña<strong>de</strong>n el elem<strong>en</strong>to temporal. Aunque típicam<strong>en</strong>te se refiere al curso clínicoque posiblem<strong>en</strong>te <strong>de</strong>sarrollará un individuo <strong>en</strong>fermo, también se aplica a la <strong>predicción</strong> <strong>de</strong>lriesgo <strong>de</strong> <strong>en</strong>fermedad <strong>en</strong> población sana. Pronóstico y <strong>predicción</strong> implican estimación <strong>de</strong>lriesgo o la probabilidad <strong>de</strong> <strong>de</strong>sarrollar una <strong>de</strong>terminada <strong>en</strong>fermedad <strong>en</strong> el futuro.1.1. Descripción <strong>de</strong> la <strong>en</strong>fermedadLos Síndromes Mielodisplásicos (SMD) constituy<strong>en</strong> un grupo <strong>de</strong> trastornos <strong>en</strong> los que lamédula ósea no funciona correctam<strong>en</strong>te y las células <strong>de</strong> la misma no pue<strong>de</strong>n producirsufici<strong>en</strong>tes células sanguíneas saludables. Para más información sobre esta <strong>en</strong>fermedadse pue<strong>de</strong>n consultar las guías españolas <strong>de</strong> diagnóstico y tratami<strong>en</strong>to <strong>de</strong> los síndromesmieloplásticos y la leucemia mielomonocítica crónica, disponibles <strong>en</strong> www.gesmd.es/es/.3


CAPÍTULO 1. INTRODUCCIÓNLas células madre <strong>de</strong> la sangre, constituidas por una pequeña fracción <strong>de</strong> las célulasproductoras <strong>de</strong> sangre, son necesarias para producir nuevas células. Estas se divi<strong>de</strong>n originandodos células: una linfoi<strong>de</strong>, la cual permanecerá como célula madre y, otra mieloi<strong>de</strong>,que pue<strong>de</strong> seguir cambiando y dividiéndose para producir células sanguíneas. La médulaósea sana produce células sanguíneas inmaduras, <strong>de</strong>nominadas blastos, que luego se<strong>de</strong>sarrollan dando lugar a:Glóbulos rojos: <strong>en</strong>cargados <strong>de</strong> transportar oxíg<strong>en</strong>o y otras sustancias a todos lostejidos <strong>de</strong>l cuerpo.Glóbulos blancos: también conocidos como leucocitos, importantes <strong>en</strong> la <strong>de</strong>f<strong>en</strong>sa<strong>de</strong>l organismo contra las infecciones y <strong>en</strong>fermeda<strong>de</strong>s. Los dos tipos principales <strong>de</strong>glóbulos blancos son: linfocitos, <strong>en</strong>cargados <strong>de</strong> producir los anticuerpos que ayudanal organismo a combatir los gérm<strong>en</strong>es; y granulocitos, <strong>en</strong>cargados <strong>de</strong> <strong>de</strong>struir lasbacterias.Plaquetas: necesarias para la coagulación <strong>de</strong> la sangre, bloqueando las áreas <strong>de</strong> vasossanguíneos dañadas por cortes o hematomas.Por el contrario, <strong>en</strong> paci<strong>en</strong>tes con el síndrome mielodisplásico (SMD), este proceso normales interrumpido. La médula ósea produce células inmaduras, es <strong>de</strong>cir, los blastos no se<strong>de</strong>sarrollan pl<strong>en</strong>am<strong>en</strong>te. El organismo <strong>de</strong>struye muchas <strong>de</strong> estas células sanguíneas anormales,<strong>de</strong>jando al paci<strong>en</strong>te con bajos recu<strong>en</strong>tos sanguíneos, ya que no exist<strong>en</strong> sufici<strong>en</strong>tescélulas sanguíneas normales. Como consecu<strong>en</strong>cia <strong>de</strong> ello, los paci<strong>en</strong>tes con SMD ti<strong>en</strong><strong>en</strong>m<strong>en</strong>os células sanguíneas maduras y las que ti<strong>en</strong><strong>en</strong> pue<strong>de</strong>n ser anormales y no funcionara<strong>de</strong>cuadam<strong>en</strong>te. Cuando hay m<strong>en</strong>os células sanguíneas sanas, se pue<strong>de</strong>n pres<strong>en</strong>tarinfecciones, anemia o sangrado fácil. El signo más común es la anemia, provocada porla insufici<strong>en</strong>cia <strong>de</strong> glóbulos rojos <strong>en</strong> la sangre. Esta afección pue<strong>de</strong> causar que las personasse si<strong>en</strong>tan cansadas, débiles y pue<strong>de</strong>n lucir pálidas. Un estado grave podría causardificultad para respirar. El resultado <strong>de</strong> una disminución <strong>de</strong> plaquetas, conocida comotrombocitop<strong>en</strong>ia, pue<strong>de</strong> causar sangrado anormal o aparición <strong>de</strong> hematomas con muchafacilidad. Usualm<strong>en</strong>te, los linfocitos no son anormales <strong>en</strong> los síndromes mielodisplásicos,<strong>en</strong> cambio, los neutrófilos, células cruciales para combatir las bacterias, pue<strong>de</strong>n aparecer<strong>de</strong> forma anormal. Un déficit <strong>de</strong> neutrófilos, conocido como neutrop<strong>en</strong>ia, pue<strong>de</strong> t<strong>en</strong>er comoconsecu<strong>en</strong>cia graves infecciones. En la Figura 1.1 se aprecia gráficam<strong>en</strong>te la evolución <strong>de</strong>una célula sanguínea. Los SMD son por naturaleza heterogéneos y diversos con t<strong>en</strong><strong>de</strong>nciaa evolucionar a leucemia mieloblástica aguda (LMA). En la LMA, las células madremieloi<strong>de</strong>s habitualm<strong>en</strong>te pasan a ser un tipo <strong>de</strong> glóbulos blancos inmaduros llamadosmieloblastos (o blastocitos mieloi<strong>de</strong>s). Los mieloblastos <strong>en</strong> la LMA son anormales y no seconviert<strong>en</strong> <strong>en</strong> glóbulos blancos sanos. Dando lugar, <strong>en</strong> ocasiones, a <strong>de</strong>masiados glóbulosrojos o plaquetas anormales, también <strong>de</strong>nominados células o blastocitos leucémicos. Lascélulas leucémicas se acumulan <strong>en</strong> la médula ósea y la sangre <strong>de</strong>jando m<strong>en</strong>os lugar paralas células sanas. Cuando esto ocurre, se pue<strong>de</strong> pres<strong>en</strong>tar infección, anemia o sangradofácil. Las células leucémicas se pue<strong>de</strong>n diseminar fuera <strong>de</strong> la sangre hasta otras partes <strong>de</strong>lcuerpo, como el sistema nervioso c<strong>en</strong>tral (cerebro y médula espinal), la piel y las <strong>en</strong>cías.4


CAPÍTULO 1. INTRODUCCIÓNFigura 1.1: Una célula madre sanguínea pasa por varias etapas para convertirse <strong>en</strong> unglóbulo rojo, una plaqueta o un glóbulo blanco.1.2. Índices <strong>de</strong> pronósticoComo correspon<strong>de</strong> a un grupo heterogéneo <strong>de</strong> <strong>en</strong>fermeda<strong>de</strong>s, los SMD pres<strong>en</strong>tan granvariabilidad pronóstica, tanto <strong>en</strong> términos <strong>de</strong> superviv<strong>en</strong>cia global como <strong>de</strong> riesgo <strong>de</strong>evolución a LMA. De ahí la necesidad <strong>de</strong> establecer un sistema <strong>de</strong> clasificación diagnósticay pronóstica <strong>de</strong> este complejo grupo <strong>de</strong> neoplasias hematológicas.La primera clasificación diagnóstica <strong>de</strong> los SMD fue establecida <strong>en</strong> 1982 por el grupoFranco-Americano-Británico (FAB) y se ha mant<strong>en</strong>ido <strong>en</strong> vigor hasta la revisión realizadabajo el amparo <strong>de</strong> la Organización Mundial <strong>de</strong> la Salud (OMS) <strong>en</strong> el año 2008.En cualquier caso, la categorización pronóstica más ext<strong>en</strong>dida actualm<strong>en</strong>te es el ÍndicePronóstico Internacional (International Prognostic Scoring System, IPSS).El índice pronóstico internacional, IPSS, divi<strong>de</strong> a los paci<strong>en</strong>tes <strong>en</strong> cuatro categoríaspronósticas según el número <strong>de</strong> citop<strong>en</strong>ias (disminución <strong>de</strong> un tipo celular <strong>de</strong> la sangre),ciertas características citog<strong>en</strong>éticas (cariotipo) y el porc<strong>en</strong>taje <strong>de</strong> blastos <strong>en</strong> la médulaósea, según se indica <strong>en</strong> el cuadro 1.1. Como habían mostrado <strong>estudios</strong> previos, las tresvariables <strong>de</strong>mostraron pres<strong>en</strong>tar un peso pronóstico in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te, tanto para la superviv<strong>en</strong>ciaglobal como para la evolución a LMA.GradoVariable Pronóstica 0 0.5 1 1.5 2Blastos ( %) < 5 5 - 10 - 11 - 20 21 - 30Cariotipo bu<strong>en</strong>o intermedio pobre - -Citop<strong>en</strong>ias 0 / 1 2 - 3 - - -Tabla 1.1: Clasificación pronóstica (IPSS).En la Tabla 1.1 se repres<strong>en</strong>ta la clasificación pronóstica obt<strong>en</strong>ida al usar el índice IPSS.5


CAPÍTULO 1. INTRODUCCIÓNA cada intervalo <strong>de</strong> valores <strong>de</strong> las variables pronósticas, se le asigna una puntuación, a laque <strong>de</strong>nominamos grado. Esta puntuación pue<strong>de</strong> tomar valores <strong>en</strong>tre 0, 0.5, 1, 1.5 y 2. Enel caso <strong>de</strong>l porc<strong>en</strong>taje <strong>de</strong> blastos, a un porc<strong>en</strong>taje inferior al 5 % se le adjudica el grado 0,si un individuo pres<strong>en</strong>ta un porc<strong>en</strong>taje <strong>en</strong>tre el 5 y el 10 %, se le asigna un grado 0.5, aun porc<strong>en</strong>taje <strong>en</strong>tre el 11 y el 20 % se le asigna el grado 1.5 mi<strong>en</strong>tras que a un porc<strong>en</strong>tajesuperior se le asignará el grado 2. La variable cariotipo repres<strong>en</strong>ta las anomalías g<strong>en</strong>éticaspres<strong>en</strong>tes <strong>en</strong> el individuo, obt<strong>en</strong>i<strong>en</strong>do un mayor grado cuanto mayor sea el número <strong>de</strong>anomalías. Se <strong>de</strong>nomina como bu<strong>en</strong>o al cariotipo normal, es <strong>de</strong>cir, cuando no exist<strong>en</strong>anomalías, al que se le asigna un grado 0. El término intermedio recoge cualquier otraanomalía sin afectar al cromosoma 7 (grado 0.5) y, pobre se usa para referirse a un cariotipocomplejo (grado 1), es <strong>de</strong>cir, con un número <strong>de</strong> anomalías superior a 3, <strong>en</strong> el cual sí seve afectado el cromosoma 7. En cuanto a las citop<strong>en</strong>ias se otorga el grado cero a la noexist<strong>en</strong>cia <strong>de</strong> citop<strong>en</strong>ias ó uni-citop<strong>en</strong>ia (disminución <strong>de</strong> un tipo celular <strong>de</strong> la sangre). Seclasifica con grado 0.5 a la bicitop<strong>en</strong>ia ó p<strong>en</strong>citopia, es <strong>de</strong>cir, la disminución <strong>de</strong> dos ó todoslos tipos celulares <strong>de</strong> la sangre circulante. Se usa (−) para hacer refer<strong>en</strong>cia a un caso noaplicable.El sistema <strong>de</strong> pronóstico IPSS es capaz <strong>de</strong> estratificar los paci<strong>en</strong>tes <strong>en</strong> cuatro grupos condifer<strong>en</strong>cias estadísticam<strong>en</strong>te significativas <strong>en</strong> superviv<strong>en</strong>cia global y tasa <strong>de</strong> progresión aLMA. Esta estratificación se realiza t<strong>en</strong>i<strong>en</strong>do <strong>en</strong> cu<strong>en</strong>ta la puntuación total <strong>de</strong>l índiceIPSS y <strong>de</strong>fini<strong>en</strong>do cuatro intervalos. La puntuación total se obti<strong>en</strong>e como la suma <strong>de</strong> laspuntuaciones <strong>de</strong> las tres variables.La situación <strong>clínica</strong> <strong>de</strong>l paci<strong>en</strong>te, según el sistema <strong>de</strong> pronóstico IPSS sería la sigui<strong>en</strong>te:Riesgo bajo: se correspon<strong>de</strong> con una puntuación igual a 0 y se <strong>de</strong>nominará grupo 0.Riesgo intermedio 1: se correspon<strong>de</strong> con una puntuación <strong>en</strong> el intervalo 0.5 - 1 y se<strong>de</strong>nominará grupo 1.Riesgo intermedio 2: se correspon<strong>de</strong> con una puntuación <strong>en</strong>tre 1.5 y 2, se <strong>de</strong>nominarágrupo 2.Riesgo alto: se correspon<strong>de</strong> con una puntuación superior a 2. Este riesgo se <strong>de</strong>nominacomo grupo 3.Por ejemplo, un paci<strong>en</strong>te con un porc<strong>en</strong>taje <strong>de</strong> blastos inferior al 5 % (grado 0), un cariotipopobre (grado 1) y pancitop<strong>en</strong>ia (grado 0.5) sería clasificado como:0 + 1 + 0,5 = 1,5Es <strong>de</strong>cir, sería un individuo con riesgo intermedio 2, pert<strong>en</strong>ecería al grupo 2.Des<strong>de</strong> su publicación ha sido consi<strong>de</strong>rado el sistema pronóstico <strong>de</strong> refer<strong>en</strong>cia para establecerel pronóstico individual y planificar el tratami<strong>en</strong>to <strong>en</strong> dicha <strong>en</strong>fermedad. Sin embargo,6


CAPÍTULO 1. INTRODUCCIÓNel IPSS pres<strong>en</strong>ta importantes limitaciones, <strong>en</strong>tre las que se <strong>en</strong>cu<strong>en</strong>tra la asignación ina<strong>de</strong>cuada<strong>de</strong>l riesgo para muchas alteraciones citog<strong>en</strong>éticas, especialm<strong>en</strong>te <strong>en</strong> las <strong>de</strong> riesgointermedio 1, o no t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta la importancia <strong>clínica</strong> <strong>de</strong> las severas neutrop<strong>en</strong>ias oplaquetop<strong>en</strong>ias (disminución <strong>de</strong> granulocitos o plaquetas <strong>en</strong> la sangre, respectivam<strong>en</strong>te)que <strong>de</strong>terminan la necesidad <strong>de</strong> tratami<strong>en</strong>to terapéutico. En los últimos años se han reconocidonuevos factores <strong>de</strong> la <strong>en</strong>fermedad y <strong>de</strong>l paci<strong>en</strong>te con peso pronóstico in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tey se ha modificado el IPSS, dando lugar al IPSS revisado (IPSS-R).El índice revisado sigue basándose <strong>en</strong> las variables pres<strong>en</strong>tes <strong>en</strong> el IPSS, pero incluye cinco<strong>en</strong> lugar <strong>de</strong> tres subgrupos citog<strong>en</strong>éticos con nuevas y específicas clasificaciones <strong>de</strong> unnúmero <strong>de</strong> subconjuntos citog<strong>en</strong>éticos m<strong>en</strong>os comunes. Esta revisión recoge la influ<strong>en</strong>ciapeyorativa <strong>de</strong> la trombocitop<strong>en</strong>ia y la neutrop<strong>en</strong>ia graves (polimorfonucleares [PMN]).Un trabajo muy reci<strong>en</strong>te <strong>de</strong>l Grupo Español <strong>de</strong> Síndromes Mielodisplásicos (GESMD) haevi<strong>de</strong>nciado que ambas anomalías citog<strong>en</strong>éticas ti<strong>en</strong><strong>en</strong> un peso pronóstico in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tetanto <strong>en</strong> superviv<strong>en</strong>cia global como <strong>en</strong> progresión a LMA <strong>en</strong> paci<strong>en</strong>tes con SMD <strong>de</strong> bajoriesgo.La información disponible, aún no publicada, sobre el núcleo fundam<strong>en</strong>tal <strong>de</strong>l sistema <strong>de</strong>pronóstico IPSS revisado, se muestra <strong>en</strong> la Tabla 1.2.GradoV. Pronóstico 0 0.5 1 1.5 2 3 4Cariotipo Muy bu<strong>en</strong>o - Bu<strong>en</strong>o - Intermedio Pobre Muy pobreBlastos ( %) ≤ 2 - > 2 − 5 - 5 - 10 > 10 -Hemoglobina ≥ 10 - 8− < 10 < 8 - - -Plaquetas ≥ 100 50− < 100 < 50 - - - -PMN ≥ 0,8 < 0,8 - - - - -Tabla 1.2: IPSS-R provisional.El sistema pronóstico tradicional, el IPSS, hacía cuatro grupos, <strong>en</strong> cambio, el sistemaIPSS-R <strong>de</strong>fine cinco categorías principales <strong>de</strong> pronóstico, o <strong>de</strong> riesgo.Riesgo muy bajo: se correspon<strong>de</strong> con una puntuación <strong>en</strong>tre 0 y 1.5 puntos.Riesgo bajo: se correspon<strong>de</strong> con una puntuación <strong>en</strong> el intervalo (1.5, 3].Riesgo intermedio: se correspon<strong>de</strong> con una puntuación pert<strong>en</strong>eci<strong>en</strong>te al intervalo (3,4.5].Riesgo alto: se correspon<strong>de</strong> con una puntuación pert<strong>en</strong>eci<strong>en</strong>te al intervalo (4.5, 6].Riesgo muy alto: se correspon<strong>de</strong> con una puntuación superior a 6 puntos.7


CAPÍTULO 1. INTRODUCCIÓNEl tratami<strong>en</strong>to <strong>de</strong> los paci<strong>en</strong>tes con SMD <strong>de</strong> alto riesgo se <strong>en</strong>foca a modificar la historianatural <strong>de</strong> la <strong>en</strong>fermedad y prolongar la esperanza <strong>de</strong> vida. Por el contrario, <strong>en</strong> lospaci<strong>en</strong>tes con SMD <strong>de</strong> bajo riesgo, el objetivo terapéutico se <strong>en</strong>foca más hacia la mejora<strong>de</strong> la calidad <strong>de</strong> vida, con el control <strong>de</strong> los síntomas y el tratami<strong>en</strong>to <strong>de</strong> las citop<strong>en</strong>ias,fundam<strong>en</strong>talm<strong>en</strong>te <strong>de</strong> la anemia.1.3. Datos disponibles <strong>en</strong> la unidad epi<strong>de</strong>miológica<strong>de</strong>l Hospital Clínico Universitario <strong>de</strong> Santiago<strong>de</strong> CompostelaCon el propósito <strong>de</strong> <strong>de</strong>scribir la epi<strong>de</strong>miología <strong>de</strong> los Síndromes Mielodisplásicos <strong>en</strong> lapoblación gallega, se realizó un estudio <strong>de</strong> 340 paci<strong>en</strong>tes proce<strong>de</strong>ntes <strong>de</strong> la base <strong>de</strong> datos<strong>de</strong> la Fundación Pública Gallega <strong>de</strong> Medicina X<strong>en</strong>ómica. Para su inclusión <strong>de</strong>bían habersido diagnosticados <strong>de</strong> SMD según los criterios <strong>de</strong> la clasificación <strong>de</strong> la OrganizaciónMundial <strong>de</strong> la Salud <strong>de</strong> 2008 <strong>en</strong> el período compr<strong>en</strong>dido <strong>en</strong>tre el 1 <strong>de</strong> <strong>en</strong>ero <strong>de</strong> 2007 y el18 <strong>de</strong> diciembre <strong>de</strong> 2011. Para ello se revisaron los <strong>estudios</strong> citog<strong>en</strong>éticos remitidos a dicholaboratorio con sospecha <strong>de</strong> SMD <strong>en</strong>tre tales fechas. El período <strong>de</strong> seguimi<strong>en</strong>to mínimofue <strong>de</strong> un año, finalizando por lo tanto, el 17 <strong>de</strong> diciembre <strong>de</strong> 2012.En la Tabla 1.3 se muestra un resum<strong>en</strong> <strong>de</strong> la base <strong>de</strong> datos disponible.IPSS-RIPSS 1 2 3 4 5 Total0 62 77 4 0 0 1431 7 68 44 10 0 1292 0 0 15 24 15 543 0 1 0 1 12 14Total 69 146 63 35 27 340Tabla 1.3: Clasificación <strong>de</strong> los individuos según los dos sistemas pronósticos.1.4. Objetivos <strong>de</strong>l estudioDebido a la gravedad <strong>de</strong> la <strong>en</strong>fermedad y a la necesidad <strong>de</strong> dar un tratami<strong>en</strong>to a<strong>de</strong>cuadoa la situación <strong>clínica</strong> <strong>de</strong> cada paci<strong>en</strong>te, es fundam<strong>en</strong>tal t<strong>en</strong>er un sistema <strong>de</strong> diagnósticoy pronóstico lo más eficaz posible. Es aquí don<strong>de</strong> radica la importancia <strong>de</strong> evaluar si elnuevo sistema <strong>de</strong> pronóstico mejora la eficacia <strong>de</strong>l usado hasta el mom<strong>en</strong>to.8


CAPÍTULO 1. INTRODUCCIÓNFinalm<strong>en</strong>te, tras evaluar cuál <strong>de</strong> los dos sistemas <strong>de</strong> pronóstico es más efici<strong>en</strong>te, se proce<strong>de</strong>ráa la comprobación <strong>de</strong> si al añadir una covariable al mejor <strong>de</strong> ellos, se podría inclusomejorar los resultados obt<strong>en</strong>idos con ese sistema.1.5. Estructura <strong>de</strong>l trabajoEn el capítulo dos se pret<strong>en</strong><strong>de</strong> dar un marco <strong>de</strong> refer<strong>en</strong>cia básico sobre el análisis <strong>de</strong>superviv<strong>en</strong>cia. Com<strong>en</strong>zando con una breve <strong>de</strong>scripción <strong>de</strong> los tipos <strong>de</strong> c<strong>en</strong>sura exist<strong>en</strong>tes<strong>en</strong> los datos <strong>de</strong> superviv<strong>en</strong>cia, así como las posibles soluciones a adoptar. Finalm<strong>en</strong>te sepres<strong>en</strong>ta un comp<strong>en</strong>dio <strong>de</strong> las funciones básicas <strong>de</strong>l análisis <strong>de</strong> superviv<strong>en</strong>cia.En el capítulo tres nos acercamos a los <strong>estudios</strong> <strong>de</strong> clasificación. En este capítulo seexpone y <strong>de</strong>scribe la capacidad <strong>de</strong> discriminación <strong>de</strong> las curvas ROC y las curvas ROC<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong>l tiempo.En el capítulo cuatro se consi<strong>de</strong>ran otras medidas <strong>de</strong> evaluación <strong>de</strong> un mo<strong>de</strong>lo. A<strong>de</strong>mástrataremos brevem<strong>en</strong>te el tema <strong>de</strong> reclasificación.En el capítulo cinco se estudia la información que aporta la inclusión <strong>de</strong> una nueva variableal marcador IPSS-R. El método usado es el mo<strong>de</strong>lo <strong>de</strong> Cox.En el capítulo seis se pres<strong>en</strong>ta un breve resum<strong>en</strong> <strong>de</strong> las prácticas realizadas <strong>en</strong> la Unidad<strong>de</strong> Epi<strong>de</strong>miología <strong>de</strong>l Complejo Hospitalario <strong>de</strong> Santiago <strong>de</strong> Compostela.9


Capítulo 2Análisis <strong>de</strong> superviv<strong>en</strong>ciaEn ci<strong>en</strong>cias <strong>de</strong> la salud los <strong>estudios</strong> longitudinales son sin duda, los que aportan datos másprecisos sobre la evolución <strong>de</strong> los sujetos pero, a la vez, son los más costosos y los <strong>de</strong> mayorcomplejidad <strong>en</strong> cuanto a su tratami<strong>en</strong>to estadístico (véase Stev<strong>en</strong>son (2009)). Se conocecomo análisis <strong>de</strong> superviv<strong>en</strong>cia a la colección <strong>de</strong> técnicas estadísticas apropiadas para estetipo <strong>de</strong> <strong>estudios</strong>, <strong>en</strong> los cuales cada paci<strong>en</strong>te es seguido durante un <strong>de</strong>terminado período<strong>de</strong> tiempo. Con el uso <strong>de</strong> estas técnicas se pret<strong>en</strong><strong>de</strong> <strong>de</strong>scribir y cuantificar el tiempo hastaun ev<strong>en</strong>to <strong>de</strong> interés.En el análisis <strong>de</strong> superviv<strong>en</strong>cia se emplea el término “fallo”para <strong>de</strong>finir que suce<strong>de</strong> el ev<strong>en</strong>to<strong>de</strong> interés. Dicho ev<strong>en</strong>to, <strong>en</strong> el contexto médico, pue<strong>de</strong> ser <strong>en</strong> realidad un “éxito”, comopor ejemplo la recuperación <strong>de</strong> una terapia o la <strong>de</strong>saparición <strong>de</strong> un síntoma; o un fallo,como la recaída <strong>en</strong> una <strong>en</strong>fermedad o la muerte. El término “tiempo <strong>de</strong> superviv<strong>en</strong>cia”se<strong>de</strong>fine como el tiempo transcurrido hasta que ocurre el ev<strong>en</strong>to a estudiar, es <strong>de</strong>cir, es elintervalo <strong>de</strong> tiempo <strong>de</strong>s<strong>de</strong> el acontecimi<strong>en</strong>to o estado inicial hasta el estado final. Por esemotivo, es importante t<strong>en</strong>er conocimi<strong>en</strong>to <strong>de</strong> las fechas implicadas <strong>en</strong> el estudio.En el análisis <strong>de</strong> superviv<strong>en</strong>cia, el análisis <strong>de</strong> los datos pue<strong>de</strong> ser realizado utilizando técnicasparamétricas, semi-paramétricas o no paramétricas. Entre los métodos paramétricos<strong>de</strong>staca el uso <strong>de</strong> las distribuciones Expon<strong>en</strong>cial, Weibull y Lognormal para mo<strong>de</strong>lar lasuperviv<strong>en</strong>cia. Entre los métodos no paramétricos o semi-paramétricos, los más usadosson el método <strong>de</strong> Kaplan-Meier (véase Kaplan and Meier (1958)) y la regresión <strong>de</strong> Cox(véase Cox (1972)).En epi<strong>de</strong>miología se utilizan con más frecu<strong>en</strong>cia los métodos no paramétricos (o semiparamétricos)que los métodos paramétricos. Este hecho se <strong>de</strong>be a que normalm<strong>en</strong>te nose ti<strong>en</strong>e una distribución teórica ajustada a los datos.11


CAPÍTULO 2. ANÁLISIS DE SUPERVIVENCIA2.1. C<strong>en</strong>suraEn <strong>estudios</strong> con datos longitudinales solo se conoce el tiempo exacto <strong>de</strong> superviv<strong>en</strong>ciapara aquellos individuos que realizaron el ev<strong>en</strong>to <strong>de</strong> interés durante el período <strong>de</strong> seguimi<strong>en</strong>to.Sin embargo, aquellos individuos que no pres<strong>en</strong>taron el ev<strong>en</strong>to una vez finalizadoel período <strong>de</strong> observación o aquellos que son perdidos, el observador pue<strong>de</strong> p<strong>en</strong>sar quedichos sujetos no mostraron el ev<strong>en</strong>to <strong>de</strong> interés durante el período <strong>de</strong> seguimi<strong>en</strong>to. Estesería un caso <strong>de</strong> c<strong>en</strong>sura. La respuesta, el tiempo hasta el ev<strong>en</strong>to, es una variable continuapara la cual exist<strong>en</strong> dificulta<strong>de</strong>s para llevar a cabo su estudio. En primer lugar,<strong>en</strong> la mayor parte <strong>de</strong> los <strong>estudios</strong>, la variable no sigue una distribución normal sino queti<strong>en</strong>e una distribución asimétrica. Una posible solución sería utilizar transformaciones qu<strong>en</strong>ormalic<strong>en</strong> la variable. Una segunda dificultad se <strong>en</strong>cu<strong>en</strong>tra <strong>en</strong> el hecho <strong>de</strong> necesitar unperíodo <strong>de</strong> observación sufici<strong>en</strong>tem<strong>en</strong>te largo, <strong>en</strong> el cual se suel<strong>en</strong> “per<strong>de</strong>r” observaciones,es <strong>de</strong>cir, exist<strong>en</strong> observaciones c<strong>en</strong>suradas. Por ejemplo, <strong>en</strong> el supuesto <strong>de</strong> un seguimi<strong>en</strong>to<strong>de</strong> 5 años tras un infarto <strong>de</strong> miocardio, don<strong>de</strong> el paci<strong>en</strong>te i continua vivo. El tiempo <strong>de</strong>superviv<strong>en</strong>cia <strong>de</strong> dicho paci<strong>en</strong>te está c<strong>en</strong>surado por la <strong>de</strong>recha tras esos 5 años, esto es,su tiempo <strong>de</strong> superviv<strong>en</strong>cia es conocido únicam<strong>en</strong>te hasta el mom<strong>en</strong>to <strong>de</strong> finalización <strong>de</strong>lestudio, no se conoce lo que pasará tras ese período. La c<strong>en</strong>sura también pue<strong>de</strong> ocurrirsi se pier<strong>de</strong> el sujeto durante el seguimi<strong>en</strong>to. Estas razones justifican el uso <strong>de</strong> métodosespecíficos para el estudio <strong>de</strong> este tipo <strong>de</strong> variable respuesta, el método más usado es elanálisis <strong>de</strong> superviv<strong>en</strong>cia, llegando a ser una técnica <strong>de</strong> vital importancia cuando se ti<strong>en</strong><strong>en</strong>observaciones c<strong>en</strong>suradas.Exist<strong>en</strong> distintos tipos <strong>de</strong> c<strong>en</strong>sura: c<strong>en</strong>sura por la <strong>de</strong>recha, por la izquierda e intervalos <strong>de</strong>c<strong>en</strong>sura (véase An<strong>de</strong>rs<strong>en</strong> y otros (1993)).Se ti<strong>en</strong><strong>en</strong> intervalos c<strong>en</strong>surados cuando, por ejemplo, el dispositivo <strong>de</strong> medición sólo funcionapara un rango <strong>de</strong>terminado <strong>de</strong> la respuesta; las medidas fuera <strong>de</strong> ese rango seránc<strong>en</strong>suradas. Es <strong>de</strong>cir, el tiempo <strong>de</strong> superviv<strong>en</strong>cia es conocido únicam<strong>en</strong>te si es medido <strong>en</strong>un intervalo concreto. Se pue<strong>de</strong> <strong>en</strong>contrar este tipo <strong>de</strong> c<strong>en</strong>sura <strong>en</strong> <strong>estudios</strong> clínicos conseguimi<strong>en</strong>tos periódicos.C<strong>en</strong>sura por la izquierda significa que sólo se ti<strong>en</strong>e conocimi<strong>en</strong>to <strong>de</strong> los tiempos <strong>de</strong> superviv<strong>en</strong>ciapara los ev<strong>en</strong>tos que han ocurrido antes <strong>de</strong> un cierto tiempo. Un ejemplo seríaobservar un ev<strong>en</strong>to que ha ocurrido antes <strong>de</strong> que el individuo se incluya <strong>en</strong> el estudio. Portanto, se <strong>de</strong>sconoce el valor exacto <strong>de</strong> la observación.Se ti<strong>en</strong>e c<strong>en</strong>sura por la <strong>de</strong>recha cuando solo es conocida una cota inferior para el tiempo<strong>de</strong>l ev<strong>en</strong>to <strong>de</strong> interés. Ante este tipo <strong>de</strong> c<strong>en</strong>sura se dice que una observación Z (tiempo <strong>de</strong>vida <strong>de</strong>l individuo) es c<strong>en</strong>surada por la <strong>de</strong>recha si se <strong>de</strong>sconoce el valor <strong>de</strong> Z y, si sólo sesabe que es mayor que C.Exist<strong>en</strong> difer<strong>en</strong>tes tipos <strong>de</strong> respuesta c<strong>en</strong>surada por la <strong>de</strong>recha:12


CAPÍTULO 2. ANÁLISIS DE SUPERVIVENCIAC<strong>en</strong>sura tipo I : se fija una cota inferior común a todos los individuos. Sea T eltiempo <strong>de</strong> superviv<strong>en</strong>cia y C el tiempo <strong>de</strong> c<strong>en</strong>sura, si<strong>en</strong>do esta última una constante.Suponi<strong>en</strong>do que T y C son in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes a lo largo <strong>de</strong>l tiempo, los datos observados son:Z = min(T, C) =δ = I(T ≤ C) ={ T, para observaciones c<strong>en</strong>suradasC, para observaciones no c<strong>en</strong>suradas{ 1, para observaciones c<strong>en</strong>suradas0, para observaciones no c<strong>en</strong>suradasSi<strong>en</strong>do δ la función indicadora <strong>de</strong> c<strong>en</strong>sura. Aquí las respuestas son observadas sólo si se<strong>en</strong>cu<strong>en</strong>tran por <strong>de</strong>bajo <strong>de</strong> un valor fijo C.C<strong>en</strong>sura tipo II : el estudio continua hasta el fallo <strong>de</strong> los primeros r individuos,don<strong>de</strong> r es un número <strong>en</strong>tero pre<strong>de</strong>terminado (r < n).La <strong>de</strong>terminación <strong>de</strong>l tiempo para la c<strong>en</strong>sura <strong>de</strong> tipo I y el número <strong>de</strong> fallos para la c<strong>en</strong>sura<strong>de</strong> tipo II <strong>de</strong>b<strong>en</strong> ser establecidos antes <strong>de</strong> iniciar el análisis.C<strong>en</strong>sura aleatoria: <strong>en</strong> este caso el tiempo <strong>de</strong> c<strong>en</strong>sura es una variable aleatoria, es<strong>de</strong>cir, durante el transcurso <strong>de</strong> un estudio, existe un suceso in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l <strong>de</strong> interésque provoca la salida <strong>de</strong> r individuos <strong>de</strong>l estudio.El mo<strong>de</strong>lo aleatorio <strong>de</strong> c<strong>en</strong>sura a la <strong>de</strong>recha se pres<strong>en</strong>ta con el par (Z, δ) don<strong>de</strong>:Z = min(T, C) =δ = I(T ≤ C) ={ T, para observaciones c<strong>en</strong>suradasC, para observaciones no c<strong>en</strong>suradas{ 1, para observaciones c<strong>en</strong>suradas0, para observaciones no c<strong>en</strong>suradasCada valor <strong>de</strong> la muestra será un par (Z i , δ i ), con δ i = 1 cuando el valor observado <strong>de</strong>Z correspon<strong>de</strong> con el tiempo <strong>de</strong> fallo <strong>de</strong>l individuo y, δ i = 0 cuando el valor registrado<strong>de</strong> Z es un tiempo <strong>de</strong> c<strong>en</strong>sura, es <strong>de</strong>cir, no se ha observado el tiempo <strong>de</strong> fallo porque unsuceso aleatorio e in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l fallo ha ocurrido <strong>en</strong> el tiempo T i interrumpi<strong>en</strong>do laobservación <strong>de</strong> la vida hasta su fallo.2.2. Funciones elem<strong>en</strong>tales asociadas al tiempo <strong>de</strong> vidaSea T una variable aleatoria no negativa que repres<strong>en</strong>ta el tiempo hasta la ocurr<strong>en</strong>cia <strong>de</strong>un ev<strong>en</strong>to. En este capítulo, adoptaremos la terminología <strong>de</strong>l análisis <strong>de</strong> superviv<strong>en</strong>cia13


CAPÍTULO 2. ANÁLISIS DE SUPERVIVENCIArefiriéndonos al ev<strong>en</strong>to <strong>de</strong> interés como “muerte” y al tiempo <strong>de</strong> espera como “tiempo <strong>de</strong>superviv<strong>en</strong>cia”.T es una variable aleatoria continua <strong>en</strong> [0, ∞). Sea f(t) la función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> probabilidad<strong>de</strong> T y sea F (t) su correspondi<strong>en</strong>te función <strong>de</strong> distribución acumulada:F (t) = P {T ≤ t} =∫ ∞0f(x)dxLa función <strong>de</strong> superviv<strong>en</strong>cia es:S(t) = 1 − F (t) = P {T > t} =∫ ∞tf(x)dxSu valor <strong>en</strong> el tiempo t es igual a la probabilidad <strong>de</strong> que un individuo sobreviva porlo m<strong>en</strong>os hasta el tiempo t. De forma más g<strong>en</strong>eral, es igual a la probabilidad <strong>de</strong> que elindividuo experim<strong>en</strong>te el fallo con posterioridad al tiempo t. Es útil para comparar laprogresión temporal hacia el fallo <strong>en</strong>tre difer<strong>en</strong>tes grupos <strong>de</strong> individuos. Se trata <strong>de</strong> unafunción continua <strong>de</strong>creci<strong>en</strong>te, si<strong>en</strong>do S(0) = 1 y S(∞) = lím t→∞ S(t) = 0.Otra función <strong>de</strong> gran utilidad <strong>en</strong> el análisis <strong>de</strong> superviv<strong>en</strong>cia es la función <strong>de</strong> riesgo (oHazard rate), <strong>de</strong>nominada como λ(t). La cual especifica la tasa instantánea <strong>de</strong> ocurr<strong>en</strong>cia<strong>de</strong>l ev<strong>en</strong>to <strong>en</strong> un intervalo <strong>de</strong> tiempo, dado que el individuo sobrevivió hasta el instantet. La función <strong>de</strong> riesgo se <strong>de</strong>fine como:P {t < T ≤ t + ∆t | T > t}λ(t) = lím∆t→0∆tEl numerador <strong>de</strong> la expresión repres<strong>en</strong>ta la probabilidad condicional <strong>de</strong> que el ev<strong>en</strong>toocurra <strong>en</strong> el intervalo (t, t+∆t) dado que no ha ocurrido con anterioridad. El <strong>de</strong>nominadores la longitud <strong>de</strong>l intervalo. Tomando el límite cuando la longitud <strong>de</strong>l intervalo ti<strong>en</strong><strong>de</strong>a 0, se obti<strong>en</strong>e la tasa instantánea <strong>de</strong> ocurr<strong>en</strong>cia. La probabilidad condicionada <strong>en</strong> elnumerador es lo mismo que la probabilidad conjunta <strong>de</strong> que T está <strong>en</strong> el intervalo (t, t+∆t)y T > t.Es posible <strong>de</strong>finir λ(t) como una tasa <strong>en</strong>tre la función <strong>de</strong> <strong>de</strong>nsidad y la función <strong>de</strong> superviv<strong>en</strong>cia:λ(t) = f(t)S(t)la cual, algunos autores dan como la <strong>de</strong>finición <strong>de</strong> función <strong>de</strong> riesgo.Al tratarse f(t) <strong>de</strong> la <strong>de</strong>rivada <strong>de</strong> la función S(t), se pue<strong>de</strong> reescribir la ecuación anteriorcomo:λ(t) = − d dt logS(t)14


CAPÍTULO 2. ANÁLISIS DE SUPERVIVENCIASi se integra la ecuación anterior <strong>en</strong>tre 0 y t y se introduce la condición <strong>de</strong> contornoS(0) = 1 (ya que es seguro que el ev<strong>en</strong>to no ha ocurrido <strong>en</strong> un tiempo anterior al instante0), se obti<strong>en</strong>e una nueva fórmula para expresar la probabilidad <strong>de</strong> sobrevivir al m<strong>en</strong>oshasta el instante t como la función <strong>de</strong> riesgo para todos los tiempos hasta t:S(t) = exp{−∫ t0λ(x)dx} (2.1)La integral ubicada <strong>en</strong>tre corchetes <strong>en</strong> la ecuación 2.1 se conoce como el riesgo acumuladoy, se <strong>de</strong>nota como:Λ(t) =∫ t0λ(x)dx = −logS(t)Esta función repres<strong>en</strong>ta la suma <strong>de</strong> los riesgos acumulados <strong>de</strong>s<strong>de</strong> el instante 0 hasta eltiempo t. Se trata <strong>de</strong> una función creci<strong>en</strong>te <strong>en</strong> el intervalo [0, ∞)2.3. Estimador <strong>de</strong> Kaplan-MeierEl método <strong>de</strong> Kaplan-Meier se basa <strong>en</strong> los tiempos <strong>de</strong> superviv<strong>en</strong>cia individual, asumi<strong>en</strong>doque la c<strong>en</strong>sura es in<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l tiempo <strong>de</strong> superviv<strong>en</strong>cia. La probabilidad <strong>de</strong> sobrevivir<strong>en</strong> un período <strong>de</strong> tiempo pue<strong>de</strong> ser calculada consi<strong>de</strong>rando pequeñas particiones <strong>de</strong> estetiempo. Estas particiones (o intervalos) se <strong>de</strong>terminan por la ocurr<strong>en</strong>cia <strong>de</strong>l ev<strong>en</strong>to, es<strong>de</strong>cir, la probabilidad <strong>de</strong> superviv<strong>en</strong>cia es calculada cada vez que ocurre un ev<strong>en</strong>to. Poresa razón, <strong>en</strong>tre un ev<strong>en</strong>to y otro, la probabilidad <strong>de</strong> superviv<strong>en</strong>cia permanece constante.Se trata <strong>de</strong>l estimador no paramétrico <strong>de</strong> máxima verosimilitud <strong>de</strong> la función <strong>de</strong> superviv<strong>en</strong>ciaS(t). Se <strong>de</strong>fine como el sigui<strong>en</strong>te producto:Ŝ(t) = ∏ () δ[i:n]11 −n − i + 1Z i:n ≤tdon<strong>de</strong> Z [1:n] ≤ . . . ≤ Z [n:n] es la muestra or<strong>de</strong>nada <strong>de</strong> los Z 1 , . . . Z n y δ [1:n] , . . . , δ [n:n] son losconcominantes, si<strong>en</strong>do n el tamaño <strong>de</strong> la muestra. El expon<strong>en</strong>te es el indicador <strong>de</strong> c<strong>en</strong>sura.El <strong>de</strong>nominador (n − i + 1) <strong>de</strong>scribe el número <strong>de</strong> paci<strong>en</strong>tes <strong>en</strong> riesgo antes <strong>de</strong>l instanteZ [i:n] , es <strong>de</strong>cir, el número <strong>de</strong> individuos <strong>de</strong> la muestra para los cuales pue<strong>de</strong> ocurrir elev<strong>en</strong>to. En el caso <strong>de</strong> no exitir c<strong>en</strong>sura, se trataría <strong>de</strong> la cantidad <strong>de</strong> supervivi<strong>en</strong>tes.Los cálculos <strong>de</strong> superviv<strong>en</strong>cia para los paci<strong>en</strong>tes con SMD serán ilustrados <strong>en</strong> la Tabla2.1, don<strong>de</strong> se recoge un extracto <strong>de</strong> los datos propuestos <strong>en</strong> este docum<strong>en</strong>to. Dicha tablamuestra los intervalos <strong>de</strong> tiempo (<strong>en</strong> días), el número <strong>de</strong> individuos <strong>en</strong> riesgo, el número <strong>de</strong>ev<strong>en</strong>tos sucedidos <strong>en</strong> cada instante, la probabilidad <strong>de</strong> superviv<strong>en</strong>cia <strong>en</strong> los tiempos dados,su error estándar y los correspondi<strong>en</strong>tes intervalos <strong>de</strong> confianza al 95 %. El ∗ repres<strong>en</strong>talas observaciones c<strong>en</strong>suradas. La probabilidad <strong>de</strong> superviv<strong>en</strong>cia permanece <strong>en</strong> 1 hasta eltiempo <strong>de</strong>l primer ev<strong>en</strong>to (2 días).15


CAPÍTULO 2. ANÁLISIS DE SUPERVIVENCIAtime nº risk nº ev<strong>en</strong>t survival std. err lower 95 % IC upper 95 % IC2 340 1 0.997 0.00294 0.991 1.0003 339 1 0.994 0.00415 0.986 1.0008 338 1 0.991 0.00507 0.981 1.00016 337 2 0.985 0.00653 0.973 0.99819 335 1∗ 0.982 0.00714 0.968 0.99624 333 1 0.979 0.00770 0.964 0.99527 332 1 0.967 0.00823 0.960 0.99328 331 1∗ 0.973 0.00871 0.957 0.99130 329 2 0.967 0.00961 0.949 0.98734 327 1 0.965 0.01003 0.945 0.984Tabla 2.1: Tabla <strong>de</strong> vida para paci<strong>en</strong>tes diagnosticados con SMD.Este estimador admite una repres<strong>en</strong>tación gráfica por medio <strong>de</strong> una función escalonada a laque se <strong>de</strong>nomina curva <strong>de</strong> Kaplan-Meier, don<strong>de</strong> la proporción <strong>de</strong> superviv<strong>en</strong>cia permanececonstante <strong>en</strong>tre ev<strong>en</strong>tos. La información aportada por la tabla anterior se ve <strong>de</strong> forma másclara al repres<strong>en</strong>tar la curva <strong>de</strong> K-M, Figura 2.1.Superviv<strong>en</strong>cia0.0 0.2 0.4 0.6 0.8 1.00 1 2 3 4 5 6Tiempo (Años)Figura 2.1: Curva <strong>de</strong> superviv<strong>en</strong>cia Kaplan-Meier correspondi<strong>en</strong>te a los paci<strong>en</strong>tes diagnosticadoscon SMD.En la Figura 2.1 se repres<strong>en</strong>ta la curva <strong>de</strong> superviv<strong>en</strong>cia correspondi<strong>en</strong>te a los paci<strong>en</strong>tescon Síndrome Mielodisplásico, junto con la banda <strong>de</strong> confianza al 95 %. Los tiemposc<strong>en</strong>surados son indicados con un (+) sobre la curva <strong>de</strong> superviv<strong>en</strong>cia, los cuales facilitanla búsqueda <strong>de</strong> los tiempos <strong>de</strong> superviv<strong>en</strong>cia <strong>de</strong> los sujetos a los cuales no les ha ocurridoel ev<strong>en</strong>to. La pres<strong>en</strong>cia <strong>de</strong> líneas horizontales largas, que indican que no exist<strong>en</strong> cambios<strong>en</strong> la probabilidad <strong>de</strong> superviv<strong>en</strong>cia estimada por un período, no siempre implican unaevi<strong>de</strong>ncia <strong>de</strong> bu<strong>en</strong>os logros. En ocasiones, se <strong>de</strong>b<strong>en</strong> a una car<strong>en</strong>cia <strong>de</strong> observaciones.16


CAPÍTULO 2. ANÁLISIS DE SUPERVIVENCIAObservando la gráfica se ve como evoluciona la mortalidad a lo largo <strong>de</strong>l período <strong>de</strong> estudio.Al año <strong>de</strong>l estudio se pue<strong>de</strong> apreciar una superviv<strong>en</strong>cia <strong>de</strong>l 76,4 %, esa superviv<strong>en</strong>cia<strong>de</strong>sci<strong>en</strong><strong>de</strong> gradualm<strong>en</strong>te hasta llegar al final <strong>de</strong>l estudio, don<strong>de</strong> se ti<strong>en</strong>e una superviv<strong>en</strong>cia<strong>de</strong>l 37,9 %, es <strong>de</strong>cir, durante el estudio se acumula una mortalidad <strong>de</strong>l 62,1 %.En investigaciones médicas, con frecu<strong>en</strong>cia, se quiere comparar la superviv<strong>en</strong>cia <strong>de</strong> doso más grupos <strong>de</strong> individuos. Dichos grupos pue<strong>de</strong>n diferir respecto a cierto factor, comopue<strong>de</strong> ser un marcador, la edad, el sexo, el tratami<strong>en</strong>to, etc. El efecto que ejerce este factorsobre la superviv<strong>en</strong>cia es lo que interesa conocer. En base a los datos usados como ejemploilustrativo <strong>en</strong> este docum<strong>en</strong>to, interesa repres<strong>en</strong>tar las curvas <strong>de</strong> K-M correspondi<strong>en</strong>tes alos distintos grupos <strong>de</strong> cada sistema <strong>de</strong> puntuación.IPSSSuperviv<strong>en</strong>cia0.0 0.2 0.4 0.6 0.8 1.0Riesgobajointermedio 1intermedio 2alto0 1 2 3 4 5 6Tiempo (Años)Figura 2.2: Curva Kaplan-Meier correspondi<strong>en</strong>te a los paci<strong>en</strong>tes clasificados mediante elIPSS.En la Figura 2.2 se observan las distintas curvas <strong>de</strong> superviv<strong>en</strong>cia <strong>de</strong>scritas por los cuatrogrupos pert<strong>en</strong>eci<strong>en</strong>tes a la clasificación mediante el sistema tradicional IPSS. La primeraimpresión que ofrece la gráfica es que existe una mayor c<strong>en</strong>sura <strong>en</strong> los grupos <strong>de</strong> m<strong>en</strong>orriesgo y la exist<strong>en</strong>cia <strong>de</strong> una leve t<strong>en</strong><strong>de</strong>ncia <strong>de</strong> agrupación <strong>en</strong>tre las curvas <strong>de</strong> bajo y las <strong>de</strong>alto riesgo, llegando a difer<strong>en</strong>ciarse a simple vista. Se pue<strong>de</strong> apreciar como las curvas <strong>de</strong>K-M <strong>de</strong> los dos grupos <strong>de</strong> m<strong>en</strong>or riesgo sigu<strong>en</strong> trayectorias similares, sin pres<strong>en</strong>tar gran<strong>de</strong>scambios <strong>en</strong> la superviv<strong>en</strong>cia. En cambio, las curvas correspondi<strong>en</strong>tes a los riegos más altospres<strong>en</strong>tan una caída brusca durante el primer año <strong>de</strong> seguimi<strong>en</strong>to, llegando a alcanzar unaprobabilidad <strong>de</strong> superviv<strong>en</strong>cia <strong>de</strong>l 20 % aproximadam<strong>en</strong>te, <strong>en</strong> el caso <strong>de</strong>l riesgo alto.17


CAPÍTULO 2. ANÁLISIS DE SUPERVIVENCIAIPSS−RSuperviv<strong>en</strong>cia0.0 0.2 0.4 0.6 0.8 1.0Riesgomuy bajobajointermedioaltomuy alto0 1 2 3 4 5 6Tiempo (Años)Figura 2.3: Curva Kaplan-Meier correspondi<strong>en</strong>te a los paci<strong>en</strong>tes clasificados mediante elIPSS-R.En la Figura 2.3 sigue evi<strong>de</strong>nciándose la agrupación <strong>en</strong>tre las curvas <strong>de</strong> riesgos similares,formando dos gran<strong>de</strong>s grupos. En este caso, como sucedía <strong>en</strong> el caso <strong>de</strong>l sistema IPSS, lascurvas <strong>de</strong> los riegos más bajos pres<strong>en</strong>tan una caída más gradual <strong>en</strong> la superviv<strong>en</strong>cia. Encambio, <strong>en</strong> los riesgos más altos, la caída es más agresiva, sobre todo <strong>en</strong> el primer año <strong>de</strong>seguimi<strong>en</strong>to.18


Capítulo 3Curvas ROCUno <strong>de</strong> los problemas más comunes <strong>en</strong> las ci<strong>en</strong>cias <strong>de</strong> la salud es el <strong>de</strong> clasificación o toma<strong>de</strong> <strong>de</strong>cisiones <strong>clínica</strong>s. La clasificación se lleva a cabo a través <strong>de</strong> pruebas diagnósticasy/o pronósticas, para las cuales es fundam<strong>en</strong>tal conocer su exactitud y precisión. En casocontrario, por ejemplo, un paci<strong>en</strong>te podría ser clasificado como sano cuando <strong>en</strong> realidadpres<strong>en</strong>ta la <strong>en</strong>fermedad.En este caso disponemos <strong>de</strong> dos sistemas pronósticos, IPSS e IPSS-R, capaces <strong>de</strong> <strong>de</strong>terminarel riesgo <strong>de</strong> SMD y <strong>de</strong> pre<strong>de</strong>cir la superviv<strong>en</strong>cia y la progresión a LMA <strong>en</strong> paci<strong>en</strong>tescon esta <strong>en</strong>fermedad. Nuestro objetivo es comprobar si la clasificación propuesta, IPSS-R,es más efici<strong>en</strong>te que el sistema usado hasta el mom<strong>en</strong>to, es <strong>de</strong>cir, si la capacidad discriminatoria<strong>de</strong>l sistema IPSS se ve mejorada por el sistema IPSS-R.La curva ROC (Receiver Operating Characteristic) es una herrami<strong>en</strong>ta <strong>de</strong> uso muy ext<strong>en</strong>didopara evaluar la precisión <strong>de</strong> estos tests. A continuación, proce<strong>de</strong>mos a la <strong>de</strong>scripción<strong>de</strong> una curva ROC y nos c<strong>en</strong>traremos <strong>en</strong> el caso <strong>de</strong> la curva ROC <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l tiempo,explicando cómo se estima y qué interpretación se <strong>de</strong>riva <strong>de</strong> ella.Para ello <strong>de</strong>bemos com<strong>en</strong>zar dando unas notaciones básicas, como la <strong>de</strong>finición <strong>de</strong> lostérminos s<strong>en</strong>sibilidad y especificidad.3.1. S<strong>en</strong>sibilidad y especificidadLas curvas ROC son muy usadas <strong>en</strong> la <strong>predicción</strong> y clasificación <strong>de</strong> marcadores cuando lavariable respuesta es binaria, <strong>en</strong> este caso la precisión se resume a través <strong>de</strong> las tasas <strong>de</strong>clasificación correctas, <strong>de</strong>finidas como s<strong>en</strong>sibilidad = P {X > c | Y i = 1}, y especificidad= P {X ≤ c | Y i = 0}. Don<strong>de</strong> Y i = 1 si el individuo i pres<strong>en</strong>ta la <strong>en</strong>fermedad y, Y i = 019


CAPÍTULO 3. CURVAS ROCsi está sano. X es el valor <strong>de</strong>l marcador y c es el punto <strong>de</strong> corte o umbral <strong>de</strong> <strong>de</strong>cisión, elcual clasifica como <strong>predicción</strong> positiva (X > c) o <strong>predicción</strong> negativa (X ≤ c).La s<strong>en</strong>sibilidad es <strong>de</strong>finida como la fracción <strong>de</strong> verda<strong>de</strong>ros positivos (FVP) <strong>en</strong>tre el númerototal <strong>de</strong> paci<strong>en</strong>tes que pres<strong>en</strong>tan la <strong>en</strong>fermedad. Debemos expecificar que un verda<strong>de</strong>ropositivo es aquel paci<strong>en</strong>te que pres<strong>en</strong>ta la <strong>en</strong>fermedad y ti<strong>en</strong>e un resultado positivo <strong>en</strong> laprueba <strong>clínica</strong>. Por tanto, la (FVP) es la probabilidad <strong>de</strong> clasificar correctam<strong>en</strong>te a unindividuo <strong>en</strong>fermo o, lo que es lo mismo, <strong>de</strong> clasificar a un verda<strong>de</strong>ro positivo (VP).Este parámetro es especialm<strong>en</strong>te importante cuando la <strong>en</strong>fermedad no <strong>de</strong>be pasar <strong>de</strong>sapercibiday/o cuando el pronóstico mejora mucho con un tratami<strong>en</strong>to precoz.S<strong>en</strong>sibilidad =V PV P + F N = F V PLa especificidad es la fracción <strong>de</strong> verda<strong>de</strong>ros negativos (FVN ) <strong>en</strong>tre el número total <strong>de</strong>paci<strong>en</strong>tes que no pres<strong>en</strong>tan la <strong>en</strong>fermedad. Es la probabilidad <strong>de</strong> clasificar correctam<strong>en</strong>tea un individuo sano, es <strong>de</strong>cir, la probabilidad <strong>de</strong> que para un sujeto sano se obt<strong>en</strong>ga unresultado negativo, verda<strong>de</strong>ro negativo (VN ).Este parámetro es importante cuando la <strong>en</strong>fermedad cambia la calidad <strong>de</strong> vida <strong>de</strong>l paci<strong>en</strong>teo las consecu<strong>en</strong>cias <strong>de</strong>l tratami<strong>en</strong>to pue<strong>de</strong>n suponer un riesgo para el paci<strong>en</strong>te, como unaamputación por ejemplo. También es <strong>de</strong> gran importancia cuando no se quiere preocuparinútilm<strong>en</strong>te a algui<strong>en</strong> con un falso positivo.Especificidad =V NV N + F P = F V NEn la Figura 3.1 se recoge la relación <strong>en</strong>tre el resultado <strong>de</strong> una prueba diagnóstica y lapres<strong>en</strong>cia o aus<strong>en</strong>cia <strong>de</strong> una <strong>en</strong>fermedad. La cantidad <strong>de</strong> sujetos realm<strong>en</strong>te <strong>en</strong>fermos es lasuma <strong>de</strong> los individuos colocados <strong>en</strong> las celdas VP y FN. Los realm<strong>en</strong>te sanos se obti<strong>en</strong><strong>en</strong>sumando los individuos ubicados <strong>en</strong> las celdas VN y FP.Figura 3.1: Refer<strong>en</strong>cias: VP: verda<strong>de</strong>ros positivos, VN: verda<strong>de</strong>ros negativos, FP: falsospositivos y FN: falsos negativos; c es el punto <strong>de</strong> corte.20


CAPÍTULO 3. CURVAS ROCPara clasificar un paci<strong>en</strong>te como positivo o negativo es necesario establecer un punto <strong>de</strong>corte (c) para la probabilidad predictiva. Si la <strong>predicción</strong> es más alta que el punto <strong>de</strong> corte,el paci<strong>en</strong>te será clasificado como positivo, <strong>en</strong> caso contrario, como negativo. Se pue<strong>de</strong>ntomar difer<strong>en</strong>tes puntos <strong>de</strong> corte y repres<strong>en</strong>tar gráficam<strong>en</strong>te los resultados <strong>en</strong> la curvaROC. Existe una zona <strong>de</strong> posibles resultados <strong>de</strong> la prueba para la que la distribución <strong>de</strong>sujetos sanos y <strong>de</strong> sujetos <strong>en</strong>fermos se solapan, serían las zonas FN y FP repres<strong>en</strong>tadas <strong>en</strong>la Figura 3.1. Al mover el punto <strong>de</strong> corte hacia la izquierda se aum<strong>en</strong>ta la probabilidad <strong>de</strong><strong>de</strong>tectar paci<strong>en</strong>tes <strong>en</strong>fermos, es <strong>de</strong>cir, estamos aum<strong>en</strong>tando el número <strong>de</strong> falsos positivos.Si se <strong>de</strong>splaza el punto <strong>de</strong> corte hacia la <strong>de</strong>recha, disminuirán los falsos positivos pero, <strong>en</strong>cambio, aum<strong>en</strong>tará la cantidad <strong>de</strong> falsos negativos. Es <strong>de</strong>cir, un aum<strong>en</strong>to <strong>de</strong> s<strong>en</strong>sibilidadimplica una disminución <strong>de</strong> la especificidad, y viceversa.3.2. Descripción <strong>de</strong> una curva ROCEsta curva aporta información completa sobre el conjunto <strong>de</strong> todas las posibles combinaciones<strong>de</strong> las tasas <strong>de</strong> verda<strong>de</strong>ros positivos y falsos positivos. Una curva ROC se sueledibujar para visualizar y seleccionar clasificadores basados <strong>en</strong> su r<strong>en</strong>dimi<strong>en</strong>to (véase Fawcett(2006)). Se trata <strong>de</strong> gráficos bidim<strong>en</strong>sionales <strong>en</strong> los cuales se dibuja la tasa, o fracción,<strong>de</strong> verda<strong>de</strong>ros positivos (s<strong>en</strong>sibilidad) <strong>en</strong> el eje vertical, y la tasa <strong>de</strong> falsos positivos (1 -especificidad) <strong>en</strong> el eje horizontal, Figura 3.2. Así mismo, un gráfico ROC repres<strong>en</strong>ta elequilibrio relativo <strong>en</strong>tre verda<strong>de</strong>ros positivos y falsos negativos. Si<strong>en</strong>do el vértice (0, 1),vértice superior izquierdo, el repres<strong>en</strong>tante <strong>de</strong> la clasificación perfecta. Por el contrario, larecta con ángulo <strong>de</strong> 45 grados repres<strong>en</strong>ta la no información, es <strong>de</strong>cir, el mo<strong>de</strong>lo no aportainformación sobre la clasificación <strong>de</strong>l marcador.Figura 3.2: Curva ROC.21


CAPÍTULO 3. CURVAS ROC3.2.1. Construcción <strong>de</strong> la curva ROCExist<strong>en</strong> diversos métodos para la construcción <strong>de</strong> las curvas ROC, los cuales <strong>de</strong>p<strong>en</strong><strong>de</strong>n<strong>de</strong>l tipo <strong>de</strong> datos que se manej<strong>en</strong>. Los datos clínicos pue<strong>de</strong>n ser discretos o continuos. Lamayoría <strong>de</strong> los datos <strong>de</strong> laboratorio son continuos pero, también es muy frecu<strong>en</strong>te agruparlos datos continuos <strong>en</strong> categorías or<strong>de</strong>nadas para resumir la información y simplificar loscálculos. O pue<strong>de</strong> suce<strong>de</strong>r, como <strong>en</strong> este caso, que la variable respuesta sea discreta. Enel caso <strong>de</strong>l SMD, la clasificación <strong>de</strong> los individuos se lleva a cabo a través <strong>de</strong> los sistemaspronósticos IPSS e IPSS-R, variables respuestas, los cuales son variables discretas.Para construír la curva ROC se empieza por calcular los puntos <strong>de</strong> s<strong>en</strong>sibilidad = F V Py 1 − especificidad = F F P para todos los posibles puntos <strong>de</strong> corte, c, <strong>de</strong> la prueba. Sise tratara <strong>de</strong> una escala continua, estos puntos serían todos los valores observados, <strong>en</strong>cambio, si los resultados han sido agrupados <strong>en</strong> intervalos, los puntos <strong>de</strong> corte son loslímites <strong>de</strong> estos intervalos. Por último, si la escala es discreta, los puntos <strong>de</strong> corte sontodos los posibles valores <strong>de</strong> la escala. Hay que t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta que se <strong>de</strong>be consi<strong>de</strong>rarcomo otro punto <strong>de</strong> corte el punto −∞. En este caso, al tratarse <strong>de</strong> marcadores discretos,la unión <strong>de</strong> los puntos no dará lugar a una curva difer<strong>en</strong>ciable como <strong>en</strong> el caso <strong>de</strong> unmarcador continuo, sinó que dará lugar a un polígono. Los puntos (0, 0) y (1, 1) siemprepert<strong>en</strong>ec<strong>en</strong> a la curva ROC.Cada punto <strong>de</strong> corte c origina un punto difer<strong>en</strong>te <strong>en</strong> el espacio ROC, que repres<strong>en</strong>ta unpar (F F P, F V P ) = (1−especificidad(c), s<strong>en</strong>sibilidad(c)), los cuales <strong>de</strong>fin<strong>en</strong> la curva ROC.3.2.2. Curva ROC <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l tiempoNuestro propósito es dar una <strong>predicción</strong> a cierto tiempo. Por lo tanto es necesario t<strong>en</strong>er <strong>en</strong>cu<strong>en</strong>ta la variable temporal involucrada <strong>en</strong> el estudio. La curva ROC es insufici<strong>en</strong>te, por esemotivo se consi<strong>de</strong>ran las curvas ROC <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong>l tiempo, <strong>de</strong>notadas como ROC(t)(véase Heagerty et al. (2000)). De esta forma son necesarias nuevas <strong>de</strong>finiciones parala s<strong>en</strong>sibilidad y especificidad <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong>l tiempo, fuertem<strong>en</strong>te ligadas al concepto<strong>de</strong> máxima verosimilitud. Las medidas <strong>de</strong> precisión pue<strong>de</strong>n ser usadas para calcular lascurvas ROC para un tiempo específico. Heagerty propone dos tipos <strong>de</strong> estimadores paralas curvas ROC, los cuales son válidos <strong>en</strong> pres<strong>en</strong>cia <strong>de</strong> datos c<strong>en</strong>surados.Cuando la variable respuesta <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong>l tiempo, se pue<strong>de</strong> repres<strong>en</strong>tar la curva ROC(t)como s<strong>en</strong>sibilidad(t) vs. 1-especificidad(t). Las <strong>de</strong>finiciones propuestas por Heagerty parael caso <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l tiempo son:S<strong>en</strong>sibilidad(c, t) = P {X > c | D(t) = 1} = s 1 (c, t)Especificidad(c, t) = P {X ≤ c | D(t) = 0} = 1 − s 0 (c, t)22


CAPÍTULO 3. CURVAS ROCSi<strong>en</strong>do X el marcador y D i (t) = 1 el indicador <strong>de</strong> que el individuo i ha sufrido un ev<strong>en</strong>toprevio al instante t y c el punto <strong>de</strong> corte.3.2.3. Área bajo la curvaEl área bajo la curva, <strong>de</strong>notada como AUC, es conocida como un repres<strong>en</strong>tante <strong>de</strong> lamedida <strong>de</strong> concordancia <strong>en</strong>tre el marcador y el indicador <strong>de</strong> la <strong>en</strong>fermedad. En curvas<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong>l tiempo, el AUC(t) estima la capacidad <strong>de</strong> distinguir o <strong>de</strong> discriminar<strong>en</strong>tre <strong>en</strong>fermos y no <strong>en</strong>fermos, <strong>en</strong> este caso, la capacidad discriminatoria <strong>de</strong> cada sistemapronóstico <strong>en</strong> un cierto tiempo t. Se <strong>de</strong>fine como:AUC(t) =∫ 10ROC t (p)dpdon<strong>de</strong> p ∈ [0, 1] <strong>de</strong>nota la fracción <strong>de</strong> falsos positivos.Si el área bajo la curva valiese 1, es <strong>de</strong>cir, valiese el 100 %, la prueba sería perfecta, ya queclasificaría al 100 % <strong>de</strong> los <strong>en</strong>fermos como <strong>en</strong>fermos (VP) y al 100 % <strong>de</strong> los sanos comosanos (VN ). En este caso no exist<strong>en</strong> FP ni FN. En cambio, si el área bajo la curva valiese0.5 estaría discriminando un 50 %, es <strong>de</strong>cir, existiría la misma probabilidad <strong>de</strong> clasificara un <strong>en</strong>fermo como <strong>en</strong>fermo que como sano. Un área <strong>de</strong> 0.5 bajo la curva equivale a nodiscriminar y, se interpreta como una prueba “no informativa”.3.3. Estimación <strong>de</strong> las curvas ROCLa estimación <strong>de</strong> las curvas ROC correspondi<strong>en</strong>tes a cada sistema pronóstico se lleva acabo, <strong>de</strong> forma muy s<strong>en</strong>cilla, usando las curvas Kaplan-Meier diponibles para cada grupo(ver capítulo 2), junto con las <strong>de</strong>finiciones dadas por Heagerty y otros (2000) para laconstrucción <strong>de</strong> los pares (F F P, F V P ).Se empieza <strong>de</strong>fini<strong>en</strong>do la función bivariante S(c, t) = P (X > c, T > t). Consi<strong>de</strong>ramosŜ(c, t) el estimador propuesto por Akitas (1994) para la superviv<strong>en</strong>cia, <strong>de</strong>finido <strong>de</strong> lasigui<strong>en</strong>te manera:Ŝ(c, t) = 1 ∑Ŝ(t | X = X i )I{X i > c}nidon<strong>de</strong> Ŝ(t | X = X i) es el estimador a<strong>de</strong>cuado <strong>de</strong> la función <strong>de</strong> superviv<strong>en</strong>cia condicionaly, c es el punto <strong>de</strong> corte correspondi<strong>en</strong>te al grupo <strong>de</strong>l marcador a estudio. En nuestro caso,don<strong>de</strong> el marcador toma un conjunto discreto <strong>de</strong> valores, el estimador se pue<strong>de</strong> obt<strong>en</strong>er23


CAPÍTULO 3. CURVAS ROC<strong>de</strong> manera s<strong>en</strong>cilla mediante la sigui<strong>en</strong>te expresión:Ŝ(c, t) = 1 k∑n j I{j > c}Ŝj(t)nj=1si<strong>en</strong>do k el número <strong>de</strong> valores posibles <strong>de</strong>l marcador (cuatro para el IPSS y cinco parael IPSS-R), n j el número <strong>de</strong> individuos que toman el valor j <strong>de</strong>l marcador y Ŝj(t) elestimador Kaplan-Meier <strong>de</strong> la superviv<strong>en</strong>cia para el grupo <strong>de</strong> individuos con valor j <strong>en</strong> elmarcador.Sigui<strong>en</strong>do esta notación po<strong>de</strong>mos <strong>de</strong>finir Ŝ(t) = Ŝ(−∞, t), que sería una estimación <strong>de</strong>la función <strong>de</strong> superviv<strong>en</strong>cia como promedio <strong>de</strong> los estimadores Kaplan-Meier para cadavalor <strong>de</strong>l marcador.La s<strong>en</strong>sibilidad a un tiempo t se pue<strong>de</strong> expresar así:P {X > c | D(t) = 1} =P {X > c, D(t) = 1}P {D(t) = 1}El <strong>de</strong>nominador <strong>de</strong> la expresión anterior se pue<strong>de</strong> reescribir como:mi<strong>en</strong>tras que el numerador admite la expresión(3.1)P {D(t) = 1} = P {T ≤ t} = 1 − S(t) (3.2)P {X > c, D(t) = 1} = P {X > c, T ≤ t} = P {X > c} − P {X > c, T > t} (3.3)De esta manera es posible estimar la s<strong>en</strong>sibilidad a un tiempo t sustituy<strong>en</strong>do el numeradory el <strong>de</strong>nominador <strong>de</strong> la expresión (3.1) por versiones empíricas <strong>de</strong> los términos a la <strong>de</strong>recha<strong>en</strong> (3.2) y (3.3). Como resultado, se obti<strong>en</strong>e el sigui<strong>en</strong>te estimador <strong>de</strong> la s<strong>en</strong>sibilidad a untiempo t:̂P {X > c | D(t) = 1} = {1 − ̂F x (c)} − Ŝ(c, t)1 − Ŝ(t)don<strong>de</strong> ̂F x repres<strong>en</strong>ta la distribución empírica <strong>de</strong> los valores observados <strong>de</strong>l marcador,X 1 , . . . , X n .De manera similar la especificidad se pue<strong>de</strong> estimar así:Especificidad = ̂P Ŝ(c, t){X ≤ c | D(t) = 0} = 1 −Ŝ(t)3.4. Resultados para los datos <strong>de</strong> SMDEl objectivo <strong>de</strong> este capítulo es analizar la capacidad discriminatoria <strong>de</strong> ambos sistemaspronósticos mediante curvas ROC, es <strong>de</strong>cir, ver como <strong>de</strong> bu<strong>en</strong>os son los marcadores distingui<strong>en</strong>do<strong>en</strong>tre aquellos individuos que han sufrido el ev<strong>en</strong>to <strong>en</strong> un instante previo al24


CAPÍTULO 3. CURVAS ROCtiempo t y, los que no han sufrido el ev<strong>en</strong>to <strong>en</strong> ese período. La discriminación <strong>de</strong> cada sistemapronóstico es fácil <strong>de</strong> visualizar mediante los gráficos <strong>de</strong> las correspondi<strong>en</strong>tes curvasROC. Al tratarse <strong>de</strong> datos <strong>de</strong> superviv<strong>en</strong>cia, <strong>de</strong>bemos usar curvas ROC <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong>ltiempo, prefijando los tiempos t <strong>de</strong> interés. En este caso se hac<strong>en</strong> tres cortes <strong>en</strong> el tiempo(1 , 3 y 5 años ó lo que es lo mismo, 365, 1095 y 1825 días), para resumir la evolución <strong>de</strong>lpronóstico <strong>de</strong> superviv<strong>en</strong>cia a cierto tiempo.Una vez fijados los tiempos a interés, es necesario <strong>de</strong>terminar los puntos <strong>de</strong> corte. Enel caso <strong>de</strong> los datos disponibles, los puntos <strong>de</strong> corte para el marcador IPSS toman losvalores {0, 1, 2, 3}, correspondi<strong>en</strong>tes a los valores que toma el marcador. En el caso <strong>de</strong>lmarcador IPSS-R, los puntos <strong>de</strong> corte toman los valores {1, 2, 3, 4, 5}. A estos valores hayque añadirles el valor −∞, punto <strong>de</strong> corte común a todas las curvas ROC que da lugar alpar (1,1) <strong>en</strong> el espacio ROC.El sigui<strong>en</strong>te paso es calcular el conjunto <strong>de</strong> verda<strong>de</strong>ros positivos y falsos positivos para laconstrucción <strong>de</strong> la curva ROC(t) <strong>en</strong> cada instante t.Los resultados obt<strong>en</strong>idos para el sistema pronóstico IPSS se muestran <strong>en</strong> la Tabla 3.1.c = 0 c = 1 c = 2 c = 3s<strong>en</strong>s (c,t) 0.86 0.44 0.11 0t = 365 espec (c,t) 0.51 0.87 0.98 11- espec (c,t) 0.49 0.13 0.02 0(s<strong>en</strong>s, 1- espec) (0.86, 0.49) (0.44, 0.13) (0.11, 0.02) (0, 0)s<strong>en</strong>s (c,t) 0.71 0.33 0.08 0t = 1095 espec (c,t) 0.54 0.92 0.99 11- espec (c,t) 0.46 0.08 0.01 0(s<strong>en</strong>s, 1- espec) (0.71, 0.46) (0.33, 0.08) (0.08, 0.01) (0, 0)s<strong>en</strong>s (c,t) 0.71 0.31 0.07 0t = 1825 espec (c,t) 0.58 0.96 0.99 11- espec (c,t) 0.42 0.04 0.01 0(s<strong>en</strong>s, 1- espec) (0.71, 0.42) (0.31, 0.04) (0.07, 0.01) (0, 0)Tabla 3.1: Conjunto <strong>de</strong> verda<strong>de</strong>ros positivos y falsos positivos para el sistema pronósticoIPSS, si<strong>en</strong>do t = 365, 1095 y 1825 días.Las curvas ROC <strong>en</strong> el tiempo t serán el resultado <strong>de</strong> la unión <strong>de</strong> los conjuntos <strong>de</strong> puntosobt<strong>en</strong>idos, dando lugar a las curvas repres<strong>en</strong>tadas <strong>en</strong> la Figura 3.3.25


CAPÍTULO 3. CURVAS ROCSistema pronóstico IPSSVP0.0 0.2 0.4 0.6 0.8 1.0t = 1 añot = 3 añost = 5 años0.0 0.2 0.4 0.6 0.8 1.0FPFigura 3.3: Curvas ROC <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong>l tiempo correspondi<strong>en</strong>tes al sistema pronósticoIPSS <strong>en</strong> los tiempos t = 1, 3 y 5 años.Los resultados para el sistema pronóstico IPSS-R se muestran <strong>en</strong> la Tabla 3.2.c = 1 c = 2 c = 3 c = 4 c = 5s<strong>en</strong>s (c,t) 0.95 0.74 0.44 0.21 0t = 365 espec (c,t) 0.25 0.75 0.90 0.95 11- espec (c,t) 0.75 0.25 0.10 0.04 0(s<strong>en</strong>s, 1- espec) (0.95, 0.75) (0.74, 0.25) (0.44, 0.10) (0.21, 0.04) (0, 0)s<strong>en</strong>s (c,t) 0.89 0.55 0.33 0.15 0t = 1095 espec (c,t) 0.29 0.79 0.95 0.98 11- espec (c,t) 0.71 0.21 0.05 0.02 0(s<strong>en</strong>s, 1- espec) (0.89, 0.71) (0.55, 0.21) (0.33, 0.05) (0.15, 0.02) (0, 0)s<strong>en</strong>s (c,t) 0.88 0.50 0.30 0.13 0t = 1825 espec (c,t) 0.35 0.84 0.98 1 11- espec (c,t) 0.65 0.16 0.02 0.00 0(s<strong>en</strong>s, 1- espec) (0.88, 0.65) (0.50, 0.16) (0.30, 0.02) (0.13 0.00) (0, 0)Tabla 3.2: Conjunto <strong>de</strong> verda<strong>de</strong>ros positivos y falsos positivos para el sistema pronósticoIPSS-R, si<strong>en</strong>do t = 365, 1095 y 1825 días.Las curvas resultantes para el sistema pronóstico IPSS-R se v<strong>en</strong> repres<strong>en</strong>tadas <strong>en</strong> la Figura3.4. Se pue<strong>de</strong> ver que las curvas no son líneas difer<strong>en</strong>ciables. Se observa que las curvas26


CAPÍTULO 3. CURVAS ROCdan lugar a polígonos, por tratarse <strong>de</strong> marcadores discretos.Sistema pronóstico IPSS−RVP0.0 0.2 0.4 0.6 0.8 1.0t = 1 añot = 3 añost = 5 años0.0 0.2 0.4 0.6 0.8 1.0FPFigura 3.4: Curvas ROC <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong>l tiempo correspondi<strong>en</strong>tes al sistema pronósticoIPSS-R <strong>en</strong> los tiempos t = 1, 3 y 5 años.En la Tabla 3.3 se muestra el AUC correspondi<strong>en</strong>te a cada sistema pronóstico <strong>en</strong> lostiempos t = 1, 3 y 5 años años. Se ti<strong>en</strong>e que el AUC <strong>en</strong> cada instante t, sufre un ligeroaum<strong>en</strong>to <strong>en</strong> el sistema pronóstico IPSS-R fr<strong>en</strong>te al tradicional.IPSS IPSS-Rt = 1 año 74.29 76.77t = 3 años 66.64 71.47t = 5 años 67.23 71.30Tabla 3.3: Resum<strong>en</strong> AUC(t) para cada sistema pronóstico.Una vez calculada la AUC <strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong>l tiempo t, otra medida discriminatoria muyútil es la conocida como área integrada bajo la curva, (iauc), <strong>en</strong> el instante t. El test<strong>de</strong> Wilcoxon para muestras <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes (véase Kains et al. (2008)) permite el contraste<strong>en</strong>tre dos áreas bajo la curva para un tiempo t <strong>de</strong>terminado. Como hipótesis nula seconsi<strong>de</strong>ra que el AUC <strong>de</strong>l nuevo marcador no supera el AUC <strong>de</strong>l tradicional. El contrastees el sigui<strong>en</strong>te:{H0 : AUC 2 (t) ≤ AUC 1 (t)H 1 : AUC 2 (t) > AUC 1 (t)27


CAPÍTULO 3. CURVAS ROCLos resultados otorgados por este test se v<strong>en</strong> reflejados <strong>en</strong> la Tabla 3.4. El test concluyeque para tiempos pequeños, no exist<strong>en</strong> difer<strong>en</strong>cias estadísticas <strong>en</strong>tre ambos sistemaspronósticos, es <strong>de</strong>cir, la nueva propuesta no mejora al marcador tradicional. En cambio,según avanza el tiempo, se prueba que exist<strong>en</strong> difer<strong>en</strong>cias estadísticas <strong>en</strong>tre el sistemaIPSS y el sistema IPSS-R, evi<strong>de</strong>nciando una mayor área bajo la curva para el sistemaIPSS-R.IPSS IPSS-R p-valort = 1 año 72.51 72.21 0.96t = 3 años 70.69 72.84 4.37e-117t = 5 años 69.92 72.74 3.63e-258Tabla 3.4: Resultados <strong>de</strong>l test <strong>de</strong> Wilcoxon para ambos sistemas pronósticos.Hasta el mom<strong>en</strong>to se han mostrado las curvas ROC para tiempos concretos pero, tambiénes interesante ver la evolución <strong>de</strong> dichas curvas para cada sistema pronóstico a lo largo <strong>de</strong>lperíodo <strong>de</strong> seguimi<strong>en</strong>to, verificando los resultados mostrados anteriorm<strong>en</strong>te. Esta visualizaciónes posible dibujando el valor <strong>de</strong> área bajo cada curva para cada tiempo t duranteel período <strong>de</strong> estudio, que se muestra <strong>en</strong> la Figura 3.5.AUCs <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong>l tiempo basadas<strong>en</strong> los marcadores IPSS e IPSS−RAUC0.4 0.5 0.6 0.7 0.8 0.9 1.0IPSSIPSS−R0 500 1000 1500 2000Tiempo (días)Figura 3.5: AUCs correspondi<strong>en</strong>tes a cada sistema pronóstico <strong>en</strong> cada instante durante elperíodo <strong>de</strong> seguimi<strong>en</strong>to.Así, <strong>en</strong> la Figura 3.5 se observa que al comi<strong>en</strong>zo <strong>de</strong>l seguimi<strong>en</strong>to existe solapami<strong>en</strong>to <strong>en</strong>trelos dos sistemas. En cambio, a partir <strong>de</strong>l primer año <strong>de</strong> seguimi<strong>en</strong>to, aproximadam<strong>en</strong>te,comi<strong>en</strong>zan a existir difer<strong>en</strong>cias <strong>en</strong>tre ambos sistemas <strong>de</strong> puntuaciones, posicionándose elsistema <strong>de</strong> pronóstico IPSS-R sobre el sistema tradicional.28


Capítulo 4Evaluación <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong>pronósticoEs fundam<strong>en</strong>tal evaluar el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> los marcadores. Con este propósito, se <strong>de</strong>sarrollarondiversas medidas <strong>de</strong> evaluación que se pue<strong>de</strong>n agrupar <strong>en</strong> tres gran<strong>de</strong>s categorías:medidas <strong>de</strong> ajuste g<strong>en</strong>eral, medidas <strong>de</strong> calibración y medidas <strong>de</strong> discriminación. Para unarevisión <strong>de</strong>tallada <strong>de</strong> este tema, se pue<strong>de</strong> consultar Steyerberg (2009).4.1. Ajuste g<strong>en</strong>eral: Puntuación <strong>de</strong> BrierEntre los parámetros más usados para evaluar el mo<strong>de</strong>lo están las medidas <strong>de</strong> r<strong>en</strong>dimi<strong>en</strong>toglobal, don<strong>de</strong> <strong>de</strong>stacan el estadístico R 2 y el sistema <strong>de</strong> puntuaciones <strong>de</strong> Brier (véase Brier(1950)). Nos c<strong>en</strong>traremos <strong>en</strong> la puntuación <strong>de</strong> Brier.La puntuación <strong>de</strong> Brier fue <strong>de</strong>sarrollada para la <strong>predicción</strong> <strong>de</strong> la inexactitud <strong>de</strong> las prediccionesmetereológicas. Más tar<strong>de</strong> se ext<strong>en</strong>dió para ser utilizada como una medida <strong>de</strong>precisión <strong>en</strong> problemas <strong>de</strong> superviv<strong>en</strong>cia con pres<strong>en</strong>cia <strong>de</strong> c<strong>en</strong>sura (véase Graf y otros(1999)). Esta medida pres<strong>en</strong>ta difer<strong>en</strong>te <strong>de</strong>finición <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> la exist<strong>en</strong>cia o no <strong>de</strong>c<strong>en</strong>sura <strong>en</strong> los datos.Dado un tiempo t, la puntuación <strong>de</strong> Brier para un solo sujeto se <strong>de</strong>fine como el cuadrado<strong>de</strong> la difer<strong>en</strong>cia <strong>en</strong>tre el estado <strong>de</strong> superviv<strong>en</strong>cia observada y la <strong>predicción</strong> basada <strong>en</strong> elmo<strong>de</strong>lo <strong>de</strong> superviv<strong>en</strong>cia planteado <strong>en</strong> el tiempo t,BS(t, Ŝ) = E(Y i(t) − Ŝ(t | X i)) 2 (4.1)don<strong>de</strong> Y i = I{T i > t} indica el verda<strong>de</strong>ro estado <strong>de</strong>l sujeto i, Ŝ(t | X i) es la estimación<strong>de</strong> la probabilidad <strong>de</strong> superviv<strong>en</strong>cia <strong>en</strong> el tiempo t para el sujeto i y X i es el marcador29


CAPÍTULO 4. EVALUACIÓN DE LOS MODELOS DE PRONÓSTICOcorrespondi<strong>en</strong>te. En la expresión (4.1) se <strong>de</strong>fine la puntuación <strong>de</strong> Brier como el error <strong>de</strong><strong>predicción</strong> esperado <strong>en</strong> un cierto tiempo.Al consi<strong>de</strong>rar el caso <strong>en</strong> el que se observa c<strong>en</strong>sura <strong>en</strong> los datos, la expresión para el cálculo<strong>de</strong> la puntuación <strong>de</strong> Brier pasa a ser una pon<strong>de</strong>ración <strong>de</strong> la expresión para el caso sinc<strong>en</strong>sura, expresión (4.1).Sea G(t) = P (C > t) la función <strong>de</strong> superviv<strong>en</strong>cia para la c<strong>en</strong>sura, es <strong>de</strong>cir, la probabilidad<strong>de</strong> estar libre <strong>de</strong> c<strong>en</strong>sura hasta el mom<strong>en</strong>to t. Se <strong>de</strong>nota Ĝ(t) como el estimador Kaplan-Meier <strong>de</strong> G(t). En estas condiciones, se <strong>de</strong>fine la puntuación <strong>de</strong> Brier <strong>de</strong> la sigui<strong>en</strong>teforma:BS(t | Ŝ) = 1 n∑i=1,...,n⎧⎪⎨⎪⎩(0−Ŝ(t|X i)) 2Ĝ(Z i )(1−Ŝ(t|X i)) 2Ĝ(t), Z i ≤ t, δ i = 1, Z i > t0, Z i ≤ t, δ i = 0don<strong>de</strong> 1/Ĝ(Z i) es el peso consi<strong>de</strong>rado si ocurre el ev<strong>en</strong>to antes <strong>de</strong>l tiempo t y,el ev<strong>en</strong>to ocurre <strong>de</strong>spués <strong>de</strong>l tiempo t.1/Ĝ(t) siLa puntuación <strong>de</strong> Brier integrada (IBS) es una medida g<strong>en</strong>eral que resume el error <strong>de</strong><strong>predicción</strong> hasta el instante t. Su <strong>de</strong>finición vi<strong>en</strong>e dada por:IBS = 1 T∫ T0BS(t | Ŝ)dtSe trata <strong>de</strong> una puntuación para evaluar la bondad <strong>de</strong> las funciones <strong>de</strong> superviv<strong>en</strong>ciaprevistas <strong>de</strong> todas las observaciones <strong>en</strong> cada tiempo t <strong>en</strong>tre 0 y T si<strong>en</strong>do T = max(Z i ), (i =1, ..., n) para cada intervalo <strong>de</strong> tiempo consi<strong>de</strong>rado. Se basa <strong>en</strong> la <strong>predicción</strong> <strong>de</strong> las curvas<strong>de</strong> superviv<strong>en</strong>cia. Toma valores <strong>en</strong>tre 0, para un mo<strong>de</strong>lo perfecto, y 0.25, indicando que elmo<strong>de</strong>lo no aporta información. Es <strong>de</strong>cir, cuanto m<strong>en</strong>or sea la puntuación <strong>de</strong> Brier, mejoresserán las predicciones, <strong>de</strong>l mismo modo, cuanto m<strong>en</strong>or sea el valor <strong>de</strong>l IBS, m<strong>en</strong>or será elerror <strong>de</strong> <strong>predicción</strong> cometido a lo largo <strong>de</strong>l período <strong>de</strong> tiempo <strong>de</strong>finido, por lo tanto, losresultados obt<strong>en</strong>idos serán más precisos.30


CAPÍTULO 4. EVALUACIÓN DE LOS MODELOS DE PRONÓSTICOFigura 4.1: Repres<strong>en</strong>tación <strong>de</strong> las puntuaciones <strong>de</strong> Brier para cada sistema pronóstico.En la Figura 4.1 se repres<strong>en</strong>ta la puntuación <strong>de</strong> Brier para cada tiempo t. No se repres<strong>en</strong>tael período <strong>de</strong> seguimi<strong>en</strong>to por completo ya que, a partir <strong>de</strong>l instante t = 1825 días, seti<strong>en</strong><strong>en</strong> m<strong>en</strong>os observaciones. Al observar la Figura 4.1 se concluye que las puntuaciones<strong>de</strong> Brier son muy cercanas para ambos sistemas <strong>en</strong> tiempos pequeños. En el instantet = 400 aproximadam<strong>en</strong>te, se aprecia un cruce <strong>en</strong>tre las dos puntuaciones, pasando aestar por <strong>en</strong>cima la puntuación correspondi<strong>en</strong>te al sistema pronóstico IPSS. Por lo tanto,se ti<strong>en</strong><strong>en</strong> mejores predicciones con el nuevo sistema propuesto. En la Tabla 4.1 se resumeesta información <strong>de</strong> forma más <strong>de</strong>tallada.t = 365 días t = 1095 días t = 1825 díasIPSS 0.103 0.168 0.188IPSS-R 0.103 0.161 0.179Tabla 4.1: Puntuación <strong>de</strong> Brier integrada para ambos sistemas pronósticos.Lo que se observa <strong>en</strong> esta tabla es el valor <strong>de</strong> la puntuación <strong>de</strong> Brier integrada tomandocomo tiempos máximos tres puntos <strong>de</strong> corte <strong>en</strong> la escala temporal (365, 1095 y 1825 días).4.2. DiscriminaciónLa discriminación es la capacidad <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> asignar el resultado correcto a un par <strong>de</strong>sujetos seleccionados al azar; <strong>en</strong> otras palabras, permite distinguir <strong>en</strong>tre los que <strong>de</strong>sarrollaránel ev<strong>en</strong>to y los que no lo harán.31


CAPÍTULO 4. EVALUACIÓN DE LOS MODELOS DE PRONÓSTICOEste concepto indica cómo <strong>de</strong> eficaz es el mo<strong>de</strong>lo <strong>de</strong> <strong>predicción</strong> discriminando a los individuosque realizan el ev<strong>en</strong>to fr<strong>en</strong>te a los individuos que no realizan el ev<strong>en</strong>to.La medida <strong>de</strong> discriminación más frecu<strong>en</strong>tem<strong>en</strong>te utilizada para mo<strong>de</strong>los <strong>de</strong> error normaly resultado binario es el área bajo la curva (AUC). Su equival<strong>en</strong>te para datos con observacionesc<strong>en</strong>suradas o mo<strong>de</strong>los <strong>de</strong> regresión no logística es el índice <strong>de</strong> concordancia,índice C, (véase Harrell y otros (2001)). En el caso logístico, coinci<strong>de</strong>n ambas medidas <strong>de</strong>discriminación.En pres<strong>en</strong>cia <strong>de</strong> datos <strong>de</strong> superviv<strong>en</strong>cia, el índice C es una g<strong>en</strong>eralización <strong>de</strong> las AUC(t),vistas <strong>en</strong> el capítulo 3. En este capítulo nos c<strong>en</strong>traremos <strong>en</strong> el índice <strong>de</strong> concordancia.4.2.1. Índice <strong>de</strong> concordancia CEl índice C calcula la probabilidad <strong>de</strong> que, para un par <strong>de</strong> paci<strong>en</strong>tes comparables elegidosal azar, el paci<strong>en</strong>te con probabilidad <strong>de</strong> riesgo más alta experim<strong>en</strong>te un ev<strong>en</strong>to antes queel paci<strong>en</strong>te con m<strong>en</strong>or riesgo. Hasta el mom<strong>en</strong>to habíamos hablado <strong>de</strong> medidas a ciertotiempo pero, el índice C se trata <strong>de</strong> una medida global muy relacionada con el AUC.Para <strong>en</strong>t<strong>en</strong><strong>de</strong>r la relación exist<strong>en</strong>te <strong>en</strong>tre esta medida <strong>de</strong> discriminación global y el AUCcuando las curvas ROC no son <strong>de</strong>p<strong>en</strong><strong>de</strong>ndi<strong>en</strong>tes <strong>de</strong>l tiempo, se toman dos observacionesin<strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes (X i , i ) y (X j , j ) don<strong>de</strong>, X i , X j son los valores <strong>de</strong>l marcador para los paci<strong>en</strong>tesi, j, con i, j ∈ [1, n] si<strong>en</strong>do i ≠ j. i es el indicador <strong>de</strong> que un paci<strong>en</strong>te pres<strong>en</strong>te la <strong>en</strong>fermedad( i = 1) o no la pres<strong>en</strong>te ( i = 0).Por <strong>de</strong>finición, C = P {X i > X j | i = 1, j = 0}.Los supuestos anteriores implican que la medida <strong>de</strong> concordancia C es una medida pon<strong>de</strong>rada<strong>de</strong>l área bajo la curva ROC para plazos <strong>de</strong> tiempo fijados. Entonces se pue<strong>de</strong>expresar <strong>de</strong> la sigui<strong>en</strong>te forma:∫C = AUC(t)w(t)dtsi<strong>en</strong>do w(t) = 2 · f(t) · S(t) la función <strong>de</strong> pon<strong>de</strong>ración.Llegando así a verificar la relación <strong>en</strong>tre ambas medidas.tA continuación pres<strong>en</strong>tamos los resultados para el índice C <strong>en</strong> el caso <strong>de</strong>l SMD. El softwarelibre R nos permite calcular este índice usando el paquete survcomp, el cual toma comorefer<strong>en</strong>cias Harrell (2001) y P<strong>en</strong>cina y D’Agostino (2004).Para el cálculo <strong>de</strong>l índice C <strong>de</strong>finimos la sigui<strong>en</strong>te ecuación usada <strong>en</strong> el paquete citado32


CAPÍTULO 4. EVALUACIÓN DE LOS MODELOS DE PRONÓSTICOanteriorm<strong>en</strong>te:C =∑i,j∈ϖ I{x i > x j }| ϖ |don<strong>de</strong> ϖ es el conjunto <strong>de</strong> todos los pares <strong>de</strong> paci<strong>en</strong>tes i, j que cumpl<strong>en</strong> una <strong>de</strong> lassigui<strong>en</strong>tes condiciones:1. ambos paci<strong>en</strong>tes i, j experim<strong>en</strong>taron un ev<strong>en</strong>to y, Z i < Z j con i, j ∈ [1, n], si<strong>en</strong>doi ≠ j y n el tamaño muestral.2. sólo el paci<strong>en</strong>te i experim<strong>en</strong>tó un ev<strong>en</strong>to y, Z i < c j .En el caso <strong>de</strong> la <strong>predicción</strong> <strong>de</strong>l grupo <strong>de</strong> riesgo, se <strong>de</strong>be incluir una condición adicional:las predicciones <strong>de</strong> riesgo <strong>de</strong>b<strong>en</strong> ser difer<strong>en</strong>tes para los paci<strong>en</strong>tes i, j.Los errores estándar, los intervalos <strong>de</strong> confianza y los p-valores para el índice C se calculanasumi<strong>en</strong>do normalidad asintótica (véase P<strong>en</strong>cina y D’Agostino (2004)), Tabla 4.2.Ĉ se IC(95 %) p − valorIPSS 0.745 0.025 (0.696, 0.794) 9.18e-23IPSS-R 0.748 0.024 (0.701, 0.795) 4.25e-25Tabla 4.2: Índice <strong>de</strong> concordancia, error estándar, intervalo <strong>de</strong> confianza al 95 % y p-valorpara cada sistema pronóstico.Como se observa <strong>en</strong> la Tabla 4.2, ambos sistemas pronósticos pres<strong>en</strong>tan índices <strong>de</strong> concordanciasimilares, con intervalos <strong>de</strong> confianza al 95 % estadísticam<strong>en</strong>te significativos. Elíndice C <strong>de</strong>l sistema pronóstico IPSS-R supera levem<strong>en</strong>te al índice C para el sistema tradicional.El sigui<strong>en</strong>te paso es verificar si esta difer<strong>en</strong>cia es significativa. Para la comparación<strong>en</strong>tre ambos índices pert<strong>en</strong>eci<strong>en</strong>tes a los mismos datos <strong>de</strong> superviv<strong>en</strong>cia se emplea el test<strong>de</strong> Stu<strong>de</strong>nt para muestras <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes. Como hipótesis a contrastar se consi<strong>de</strong>ra que elíndice <strong>de</strong> concordancia para el IPSS-R es superior al índice C para el IPSS. El resultadoes un p − valor = 0,419 > 0,05, por lo tanto, no exist<strong>en</strong> difer<strong>en</strong>cias significativas <strong>en</strong>tre losíndices C.Tras consi<strong>de</strong>rar las medidas discriminatorias adoptadas hasta el mom<strong>en</strong>to, AUC(t) e índiceC, se pue<strong>de</strong> <strong>de</strong>cir que la nueva propuesta, IPSS-R, mejora al sistema pronóstico tradicional,aunque el índice C no pres<strong>en</strong>te una mejoría estadísticam<strong>en</strong>te significativa.33


CAPÍTULO 4. EVALUACIÓN DE LOS MODELOS DE PRONÓSTICO4.3. ReclasificaciónPara apreciar el r<strong>en</strong>dimi<strong>en</strong>to <strong>de</strong> un mo<strong>de</strong>lo <strong>de</strong> superviv<strong>en</strong>cia es importante evaluar su capacidadpredictiva. Actualm<strong>en</strong>te exist<strong>en</strong> nuevas medidas que aportan información adicionala lo visto hasta el mom<strong>en</strong>to, Cook (2008) propuso el uso <strong>de</strong> tablas <strong>de</strong> reclasificación yfinalm<strong>en</strong>te, P<strong>en</strong>cina y D’Agostino y otros (2011), amplian esta i<strong>de</strong>a <strong>de</strong> reclasificación proponi<strong>en</strong>dodos nuevas medidas para cuantificar el grado <strong>de</strong> reclasificación correcta: mejoraneta <strong>de</strong> reclasificación (NRI) y mejorami<strong>en</strong>to integral <strong>de</strong> la discriminación (IDI).En este caso nos c<strong>en</strong>traremos <strong>en</strong> la medida <strong>de</strong> mejora neta <strong>de</strong> reclasificación.4.3.1. Mejora neta <strong>de</strong> reclasificaciónEl NRI, o mejora neta <strong>de</strong> reclasificación, ofrece <strong>de</strong> forma s<strong>en</strong>cilla e intuitiva la cuantificación<strong>de</strong> la mejora ofrecida por el nuevo marcador. Es <strong>de</strong>cir, cuantifica la cantidad <strong>de</strong>paci<strong>en</strong>tes que están correctam<strong>en</strong>te reclasificados al usar el nuevo marcador fr<strong>en</strong>te al uso<strong>de</strong>l marcador tradicional. Esta medida para cuantificar la mejora neta ha ido ganandopopularidad <strong>en</strong>tre los investigadores <strong>en</strong> los últimos tiempos.Un movimi<strong>en</strong>to asc<strong>en</strong><strong>de</strong>nte (up) <strong>en</strong> las categorías para los sujetos que sufr<strong>en</strong> el ev<strong>en</strong>to(ev<strong>en</strong>t), implica una mejora <strong>de</strong> la reclasificación, <strong>en</strong> cambio, un movimi<strong>en</strong>to <strong>de</strong>sc<strong>en</strong><strong>de</strong>nte(down) implica un empeorami<strong>en</strong>to <strong>en</strong> la reclasificación. La interpretación es opuesta paralos paci<strong>en</strong>tes que no han sufrido el ev<strong>en</strong>to (non-ev<strong>en</strong>t). En este caso el ev<strong>en</strong>to consi<strong>de</strong>radoes la muerte <strong>de</strong>l paci<strong>en</strong>te.El NRI se <strong>de</strong>fine como:NRI = P (up | ev<strong>en</strong>t) − P (down | ev<strong>en</strong>t) + P (down | non − ev<strong>en</strong>t) − P (up | ev<strong>en</strong>t) (4.2)La mejora <strong>en</strong> la reclasificación es cuantificada como la suma <strong>de</strong> las dos compon<strong>en</strong>tes<strong>de</strong> la expresión (4.2), una compon<strong>en</strong>te para los ev<strong>en</strong>tos y otra para los no ev<strong>en</strong>tos conpon<strong>de</strong>ración proporcional a la inci<strong>de</strong>ncia <strong>de</strong> ev<strong>en</strong>tos.Usando la regla <strong>de</strong> Bayes po<strong>de</strong>mos reescribir la fórmula anterior <strong>de</strong> la sigui<strong>en</strong>te forma:P (ev<strong>en</strong>t | up) · P (up) − P (ev<strong>en</strong>t | down) · P (down)NRI =P (ev<strong>en</strong>t)P (non − ev<strong>en</strong>t | down) · P (down) − P (non − ev<strong>en</strong>t | up) · P (up)+P (non − ev<strong>en</strong>t)(4.3)34


CAPÍTULO 4. EVALUACIÓN DE LOS MODELOS DE PRONÓSTICOHaci<strong>en</strong>do el cambio P (non−ev<strong>en</strong>t) = 1−P (ev<strong>en</strong>t) y P (non−ev<strong>en</strong>t | ∗) = 1−P (ev<strong>en</strong>t | ∗),don<strong>de</strong> ∗ <strong>de</strong>nota “up” ó “down”, se obti<strong>en</strong>e una nueva <strong>de</strong>finición para la expresión (4.3):P (ev<strong>en</strong>t | up) · P (up) − P (ev<strong>en</strong>t | down) · P (down)NRI =P (ev<strong>en</strong>t)1 − P (ev<strong>en</strong>t | down) · P (down) − (1 − P (ev<strong>en</strong>t | up)) · P (up)+1 − P (ev<strong>en</strong>t)Las cantida<strong>de</strong>s <strong>en</strong> los numeradores repres<strong>en</strong>tan el número esperados <strong>de</strong> movimi<strong>en</strong>tos asc<strong>en</strong><strong>de</strong>ntesy <strong>de</strong>sc<strong>en</strong><strong>de</strong>ntes <strong>en</strong>tre los paci<strong>en</strong>tes que experim<strong>en</strong>tan el ev<strong>en</strong>to, es <strong>de</strong>cir, semuer<strong>en</strong> (<strong>en</strong> el primer numerador) y, el número esperado <strong>de</strong> movimi<strong>en</strong>tos <strong>de</strong>sc<strong>en</strong><strong>de</strong>ntes yasc<strong>en</strong><strong>de</strong>ntes <strong>en</strong>tre los paci<strong>en</strong>tes que no experim<strong>en</strong>tan el ev<strong>en</strong>to (<strong>en</strong> el segundo numerador).Los <strong>de</strong>nominadores son los casos esperados <strong>de</strong> ev<strong>en</strong>tos y no ev<strong>en</strong>tos, respectivam<strong>en</strong>te. Este<strong>en</strong>foque supone la exist<strong>en</strong>cia <strong>de</strong> categorías <strong>de</strong> riesgo y el cálculo <strong>de</strong> los estimadorespropuestos por Kaplan-Meier <strong>de</strong>ntro <strong>de</strong> cada celda <strong>de</strong> la tabla <strong>de</strong> reclasificación.Simplificando la ecuación anterior po<strong>de</strong>mos reducirla a la sigui<strong>en</strong>te expresión:NRI =(P (ev<strong>en</strong>t | up) − P (ev<strong>en</strong>t)) · P (up) + (P (ev<strong>en</strong>t) − P (ev<strong>en</strong>t | down)) · P (down)P (ev<strong>en</strong>t) · (1 − P (ev<strong>en</strong>t))La ext<strong>en</strong>sión <strong>de</strong> estas fórmulas al análisis <strong>de</strong> superviv<strong>en</strong>cia es inmediata, usando las estimaciones<strong>de</strong> Kaplan-Meier.T<strong>en</strong>i<strong>en</strong>do <strong>en</strong> cu<strong>en</strong>ta que n es el número total <strong>de</strong> sujetos, <strong>en</strong> este caso n = 340, se <strong>de</strong>fin<strong>en</strong> U como la cantidad <strong>de</strong> reclasificados con movimi<strong>en</strong>to asc<strong>en</strong><strong>de</strong>nte y n D los reclasificadoscon movimi<strong>en</strong>to <strong>de</strong>sc<strong>en</strong><strong>de</strong>nte. De este modo, la anterior fórmula pue<strong>de</strong> expresarse <strong>de</strong> lasigui<strong>en</strong>te forma:NRI = P (ev<strong>en</strong>t | up) · n U − P (ev<strong>en</strong>t | down) · n Dn · P (ev<strong>en</strong>t)+ (1 − P (ev<strong>en</strong>t | down)) · n D − (1 − P (ev<strong>en</strong>t | up)) · n Un · (1 − P (ev<strong>en</strong>t))Esta fórmula, al contrario que las anteriores, no <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong>l número o incluso <strong>de</strong> laexist<strong>en</strong>cia <strong>de</strong> categorías <strong>de</strong> riesgo, ya que se supone que las probabilida<strong>de</strong>s <strong>de</strong> ev<strong>en</strong>to <strong>en</strong>trelos reclasificados hacia arriba o hacia abajo se pue<strong>de</strong> conseguir con una puesta <strong>en</strong> común<strong>de</strong> todos los individuos con la misma reclasificación.Ambos <strong>en</strong>foques son equival<strong>en</strong>tes para muestras gran<strong>de</strong>s pero, cuando se trabaja conmuestras pequeñas es preferible este último planteami<strong>en</strong>to puesto que se eliminan celdas35


CAPÍTULO 4. EVALUACIÓN DE LOS MODELOS DE PRONÓSTICOcon un número pequeño <strong>de</strong> ev<strong>en</strong>tos. En nuestro caso t<strong>en</strong>emos un número <strong>de</strong> paci<strong>en</strong>tessufici<strong>en</strong>te, con lo cual, se pue<strong>de</strong>n consi<strong>de</strong>rar las categorías <strong>de</strong> riesgo.A<strong>de</strong>más se pue<strong>de</strong>n consi<strong>de</strong>rar dos subcompon<strong>en</strong>tes muy útiles <strong>de</strong>l NRI total: “ev<strong>en</strong>t NRI ”y “non-ev<strong>en</strong>t NRI ”:ev<strong>en</strong>tNRI = P (up | ev<strong>en</strong>t) − P (down | ev<strong>en</strong>t)=P (ev<strong>en</strong>t | up) · P (up) − P (ev<strong>en</strong>t | down) · P (down)P (ev<strong>en</strong>t)non − ev<strong>en</strong>tNRI = P (down | non − ev<strong>en</strong>t) − P (up | non − ev<strong>en</strong>t)=P (non − ev<strong>en</strong>t | down) · P (down) − P (non − ev<strong>en</strong>t | up) · P (up)P (non − ev<strong>en</strong>t)Por supuesto, NRI = ev<strong>en</strong>t NRI + non-ev<strong>en</strong>t NRI.Sigui<strong>en</strong>do la i<strong>de</strong>a <strong>de</strong> Cook, se clasifica la <strong>predicción</strong> <strong>de</strong> riesgo <strong>en</strong> difer<strong>en</strong>tes categorías paraambos marcadores. En este caso tomamos cuatro categorías <strong>de</strong> riesgo <strong>en</strong> cada marcadorusado: 0 − 25, 25 − 50, 50 − 75, > 75 %. Tanto para los paci<strong>en</strong>tes que sufr<strong>en</strong> el ev<strong>en</strong>to comopara los paci<strong>en</strong>tes que no lo sufre.Al tratarse <strong>de</strong> un estudio <strong>de</strong> superviv<strong>en</strong>cia a cierto tiempo, hacemos una tabla <strong>de</strong> reclasificaciónpara los tiempos t = 1, 3 y 5 años, int<strong>en</strong>tando resumir así el período <strong>de</strong>seguimi<strong>en</strong>to.T<strong>en</strong>dremos, por lo tanto, seis tablas, tres correspondi<strong>en</strong>tes a cada tiempo para los ev<strong>en</strong>tosy otras tres para los no ev<strong>en</strong>tos.IPSS-RIPSS [0, 0.25] (0.25, 0.50] (0.50, 0.75] (0.75, 1][0, 0.25] 23.00 0.00(0.25, 0.50] 0.00 17.43 15.00(0.50, 0.75] 0.60 8.00(0.75, 1]Tabla 4.3: Tabla <strong>de</strong> reclasificación <strong>en</strong>tre los ev<strong>en</strong>tos <strong>en</strong> el tiempo t = 365 días.36


CAPÍTULO 4. EVALUACIÓN DE LOS MODELOS DE PRONÓSTICOIPSS-RIPSS [0, 0.25] (0.25, 0.50] (0.50, 0.75] (0.75, 1][0, 0.25] 191.00 0.00(0.25, 0.50] 0.00 21.56 0.00(0.50, 0.75] 0.40 4.00(0.75, 1]Tabla 4.4: Tabla <strong>de</strong> reclasificación <strong>en</strong>tre los paci<strong>en</strong>tes que no sufr<strong>en</strong> el ev<strong>en</strong>to para t =365 días.En las Tablas 4.3 y 4.4 se muestras las reclasificaciones <strong>en</strong>tre los paci<strong>en</strong>te que sufr<strong>en</strong> elev<strong>en</strong>to y <strong>en</strong>tre los que no lo sufr<strong>en</strong> <strong>en</strong> el primer año <strong>de</strong> seguimi<strong>en</strong>to. Se observa que lospaci<strong>en</strong>tes se <strong>en</strong>cu<strong>en</strong>tran <strong>en</strong>tre las tres primeras categorías <strong>de</strong> riesgo, es <strong>de</strong>cir, al principio<strong>de</strong> seguimi<strong>en</strong>to el riesgo <strong>de</strong> muerte es más bajo. Entre los que sufr<strong>en</strong> el ev<strong>en</strong>to, Tabla4.3, la mayor reclasificación se correspon<strong>de</strong> al cambio <strong>de</strong> categoría (0,25, 0,50] <strong>de</strong>l sistemaIPSS a la categoría (0,50, 0,75] <strong>de</strong>l sistema IPSS-R <strong>en</strong>tre los ev<strong>en</strong>tos. Es <strong>de</strong>cir, el nuevosistema clasifica con un riesgo más alto a estos paci<strong>en</strong>tes.Los resultados para t = 365 días son:ev<strong>en</strong>tNRI = 0,1795non − ev<strong>en</strong>tNRI = 0,0015Por lo tanto:NRI = 0,1795 + 0,0015 = 0,1810Se obti<strong>en</strong>e una reclasificación <strong>de</strong>l 18 % <strong>de</strong> los paci<strong>en</strong>tes <strong>en</strong> el primer año <strong>de</strong> seguimi<strong>en</strong>toal hacer el cambio al nuevo sistema pronóstico IPSS-R.En las Tablas 4.5 y 4.6 se observan los datos <strong>de</strong> reclasificación <strong>en</strong>tre ev<strong>en</strong>tos y no ev<strong>en</strong>tossi<strong>en</strong>do t = 1095 días, es <strong>de</strong>cir, al tercer año <strong>de</strong> seguimi<strong>en</strong>to.IPSS-RIPSS [0, 0.25] (0.25, 0.50] (0.50, 0.75] (0.75, 1][0, 0.25] 0.00 0.00(0.25, 0.50] 29.74 1.42 0.00(0.50, 0.75] 17.00 26.45 4.75(0.75, 1] 12.75 44.99Tabla 4.5: Tabla <strong>de</strong> reclasificación <strong>en</strong>tre los ev<strong>en</strong>tos <strong>en</strong> el tiempo t = 1095 días.37


CAPÍTULO 4. EVALUACIÓN DE LOS MODELOS DE PRONÓSTICOIPSS-RIPSS [0, 0.25] (0.25, 0.50] (0.50, 0.75] (0.75, 1][0, 0.25] 0.00 0.00(0.25, 0.50] 47.26 2.57 0.00(0.50, 0.75] 51.00 17.54 5.25(0.75, 1] 2.25 7.00Tabla 4.6: Tabla <strong>de</strong> reclasificación <strong>en</strong>tre los paci<strong>en</strong>tes que no sufr<strong>en</strong> el ev<strong>en</strong>to para t =1095 días.En este caso, los paci<strong>en</strong>tes se sitúan, <strong>en</strong> ambas tablas, <strong>en</strong> las categorías <strong>de</strong> riesgo más alto.El valor <strong>de</strong> mejora neta es:Por lo tanto:ev<strong>en</strong>tNRI = −0,1479non − ev<strong>en</strong>tNRI = 0,2514NRI = −0,1479 + 0,2514 = 0,1045En la Tabla 4.5 se aprecia que el movimi<strong>en</strong>to protagonizado por los paci<strong>en</strong>tes es <strong>de</strong>sc<strong>en</strong><strong>de</strong>nte,este hecho indica un empeorami<strong>en</strong>to <strong>de</strong> la reclasificación. A pesar <strong>de</strong> esto, seobti<strong>en</strong>e una bu<strong>en</strong>a reclasificación <strong>en</strong>tre los paci<strong>en</strong>tes que no sufr<strong>en</strong> el ev<strong>en</strong>to, con lo cualla mejora neta es <strong>de</strong>l 10 %.Evaluando el tiempo t = 1825 días, se obti<strong>en</strong>e la sigui<strong>en</strong>te reclasificación:IPSS-RIPSS [0, 0.25] (0.25, 0.50] (0.50, 0.75] (0.75, 1][0, 0.25](0.25, 0.50] 22.28 25.45(0.50, 0.75] 3.61 65.95 7.26(0.75, 1] 13.60 52.00Tabla 4.7: Tabla <strong>de</strong> reclasificación <strong>en</strong>tre los ev<strong>en</strong>tos <strong>en</strong> el tiempo t = 1825 días.IPSS-RIPSS [0, 0.25] (0.25, 0.50] (0.50, 0.75] (0.75, 1][0, 0.25](0.25, 0.50] 39.71 55.54(0.50, 0.75] 3.38 46.04 2.73(0.75, 1] 2.40 0.00Tabla 4.8: Tabla <strong>de</strong> reclasificación <strong>en</strong>tre los paci<strong>en</strong>tes que no sufr<strong>en</strong> el ev<strong>en</strong>to para t =1825 días.38


CAPÍTULO 4. EVALUACIÓN DE LOS MODELOS DE PRONÓSTICOEn este caso, existe más movimi<strong>en</strong>to, tanto <strong>en</strong>tre los paci<strong>en</strong>tes con ev<strong>en</strong>to, Tabla 4.7, como<strong>en</strong>tre los paci<strong>en</strong>tes sin ev<strong>en</strong>to, Tabla 4.8. Los valores <strong>de</strong> reclasificación para t = 1825 díasson los sigui<strong>en</strong>tes:ev<strong>en</strong>tNRI = −0,3074Por lo tanto:non − ev<strong>en</strong>tNRI = 0,0763NRI = −0,3074 + 0,0763 = −0,2311En este caso, se ti<strong>en</strong>e un empeorami<strong>en</strong>to <strong>de</strong> la reclasificación. Este empeorami<strong>en</strong>to sepue<strong>de</strong> ver afectado por la falta <strong>de</strong> observaciones.Es fácil ver que si cambiamos las categorías <strong>de</strong> riesgo, por ejemplo, tomando dos categorías<strong>en</strong> vez <strong>de</strong> cuatro: < 50 % y > 50 %, Tabla 4.9. El resultado para la mejora neta <strong>de</strong>reclasificación variaría. En este caso el resultado sería:t = 365 t = 1095 t = 1825ev<strong>en</strong>t NRI 0.0785 0.3601 0.1074non-ev<strong>en</strong>t NRI -0.0257 0.0021 -0.3813NRI 0.0527 0.3622 -0.2738Tabla 4.9: Valores para el NRI y sus subcompon<strong>en</strong>tes <strong>en</strong> los tiempos t = 365, 1095 y 1825días.En este caso se aprecia un ligero aum<strong>en</strong>to <strong>de</strong>l valor para el NRI <strong>en</strong> el tiempo t = 1095 días,<strong>en</strong> cambio, disminuye <strong>en</strong> los <strong>de</strong>más tiempos consi<strong>de</strong>rados. Vi<strong>en</strong>do el ejemplo se pue<strong>de</strong> <strong>de</strong>cirque no siempre es cierto que aum<strong>en</strong>tando el número <strong>de</strong> categorías se consiga un mayorNRI.P<strong>en</strong>cina y D’Agostino y otros sugier<strong>en</strong> un NRI continuo o sin categorías como medida<strong>de</strong> la mejora <strong>en</strong> la <strong>predicción</strong> <strong>de</strong> riesgo más objetiva y versátil. Su <strong>de</strong>finición sigue si<strong>en</strong>docoher<strong>en</strong>te con las fórmulas propuestas hasta el mom<strong>en</strong>to, <strong>en</strong>contrándose la única difer<strong>en</strong>cia<strong>en</strong> la interpretación <strong>de</strong> los movimi<strong>en</strong>tos asc<strong>en</strong><strong>de</strong>ntes y <strong>de</strong>sc<strong>en</strong><strong>de</strong>ntes.Los resultados para el NRI continuo se <strong>en</strong>cu<strong>en</strong>tran <strong>en</strong> la Tabla 4.10:t = 365 t = 1095 t = 1825NRI 0.167 0.192 0.101Tabla 4.10: Valores para el NRI continuo <strong>en</strong> los tiempos t = 365, 1095 y 1825 días.En esta última tabla observamos que la mejor reclasificación se ti<strong>en</strong>e <strong>en</strong> el período intermedio<strong>de</strong> segui<strong>en</strong>to. Este resultado es coher<strong>en</strong>te con lo obt<strong>en</strong>ido hasta el mom<strong>en</strong>to pues,39


CAPÍTULO 4. EVALUACIÓN DE LOS MODELOS DE PRONÓSTICOhemos visto a lo largo <strong>de</strong>l estudio que el nuevo sistema pronóstico discrimina mejor <strong>en</strong>los años intermedios <strong>de</strong>l período <strong>de</strong> seguimi<strong>en</strong>to. Sin embargo, a tiempos pequeños, existesolapami<strong>en</strong>to <strong>en</strong>tre ambos sistemas, impidi<strong>en</strong>do una bu<strong>en</strong>a difer<strong>en</strong>ciación <strong>en</strong>tre los dos y,a tiempos gran<strong>de</strong>s, se ti<strong>en</strong><strong>en</strong> m<strong>en</strong>os observaciones lo que provoca una m<strong>en</strong>or precisión <strong>en</strong>la clasificación.40


Capítulo 5Nueva propuesta con el mo<strong>de</strong>lo <strong>de</strong>regresión <strong>de</strong> CoxEl mo<strong>de</strong>lo <strong>de</strong> regresión <strong>de</strong> Cox (1972) es el más utilizado para datos <strong>de</strong> superviv<strong>en</strong>cia <strong>en</strong> elárea médica. Es una ext<strong>en</strong>sión natural <strong>de</strong>l mo<strong>de</strong>lo logístico para datos <strong>de</strong> superviv<strong>en</strong>cia.Se utiliza cuando la variable dicotómica que se quiere estudiar (aparición <strong>de</strong>l ev<strong>en</strong>to),<strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong>l tiempo. Es <strong>de</strong>cir, para el estudio no sólo es importante que los paci<strong>en</strong>tespres<strong>en</strong>t<strong>en</strong> el ev<strong>en</strong>to, sino también <strong>en</strong> que mom<strong>en</strong>to <strong>de</strong>l estudio aparece dicho ev<strong>en</strong>to.En este mo<strong>de</strong>lo el riesgo se <strong>de</strong>fine mediante:λ(t | X) = λ 0 (t)e βX = λ 0 (t)exp(β 1 x 1 + β 2 x 2 + ... + β p x p )don<strong>de</strong> X es el vector <strong>de</strong> covariables. En el mo<strong>de</strong>lo logístico se usa el predictor lineal <strong>de</strong>intercepto mi<strong>en</strong>tras que, <strong>en</strong> el mo<strong>de</strong>lo <strong>de</strong> Cox, se usa una función <strong>de</strong> riesgo basal. Se diceque es un mo<strong>de</strong>lo semiparamétrico <strong>de</strong>bido a que incluye una parte paramétrica y otra noparamétrica:La parte paramétrica: e βX conocida como puntaje <strong>de</strong> riesgo (risk score). β es elvector <strong>de</strong> parámetros <strong>de</strong> la regresión. β es el predictor lineal β 1 x 1 + β 2 x 2 + ... + β p x p ,similar a la Odds Ratio <strong>de</strong>l mo<strong>de</strong>lo logístico.La parte no paramétrica es λ 0 (t), llamada función <strong>de</strong> riesgo basal, es una funciónarbitraria no específica. Se trata <strong>de</strong> un factor <strong>de</strong> riesgo común a todos los individuos.El mo<strong>de</strong>lo <strong>de</strong> regresión <strong>de</strong> Cox es también conocido como mo<strong>de</strong>lo <strong>de</strong> riesgos proporcionales(proportional hazard mo<strong>de</strong>l) <strong>de</strong>bido a que el coci<strong>en</strong>te <strong>en</strong>tre el riesgo para dos sujetos conel mismo vector <strong>de</strong> covariables es constante sobre el tiempo, es <strong>de</strong>cir:λ(t | X)λ(t | X ∗ ) = λ 0(t)e βXλ 0 (t)e βX∗ ) = eβXe βX∗ = exp[β(X − X ∗ )]41


CAPÍTULO 5. NUEVA PROPUESTA CON EL MODELO DE REGRESIÓN DE COXEste es el <strong>de</strong>nominado supuesto <strong>de</strong> proporcionalidad según el cual la razón <strong>de</strong> riesgo esconstante para todo par <strong>de</strong> observaciones, <strong>en</strong> cualquier instante t. Asimismo, presuponeun efecto log-lineal <strong>de</strong> las covariables sobre la función hazard <strong>de</strong> forma multiplicativa.El mo<strong>de</strong>lo especifica para cada covariable un riesgo relativo constante <strong>en</strong> el tiempo; siX = X ∗ + 1 j , j ∈ {1, . . . , p}, <strong>en</strong>tonces:λ(t | X)λ(t | X ∗ ) = exp[β j]luego, exp[β j ] se interpreta como el efecto (constante) <strong>en</strong> el riesgo que ti<strong>en</strong>e un increm<strong>en</strong>tounitario <strong>de</strong> la j-ésima covariable (<strong>en</strong> tiempo t).Pue<strong>de</strong> suce<strong>de</strong>r que las covariables <strong>en</strong> un mo<strong>de</strong>lo <strong>de</strong> Cox también <strong>de</strong>p<strong>en</strong>dan <strong>de</strong>l tiempo, <strong>en</strong>este caso, la especificación <strong>de</strong>l mo<strong>de</strong>lo sería:λ(t | X(t)) = λ 0 (t)exp[β t X(t)] = λ 0 (t)exp[β 1 X 1 (t) + ... + β p X p (t)]Si ha ocurrido una muerte <strong>en</strong> el tiempo t ∗ , <strong>en</strong>tonces la verosimilitud <strong>de</strong> que le ocurra elev<strong>en</strong>to <strong>de</strong> interés al individuo i-ésimo y no a otro es:L i (β) =λ 0 (t ∗ )r i (t ∗ )∑j Y j(t ∗ )λ 0 (t ∗ )r j (t ∗ ) = r i (t ∗ )∑j Y j(t ∗ )r j (t ∗ )si<strong>en</strong>do Y (t) una función indicadora tal que Y (t) = 1 si un individuo está <strong>en</strong> riesgo <strong>en</strong> eltiempo t y, <strong>en</strong> el otro caso, Y (t) = 0. Se <strong>de</strong>fine el índice <strong>de</strong> riesgo para un paci<strong>en</strong>te <strong>en</strong> eltiempo t como r(t) = exp(βX(t)) (véase Thernau y grambsch (2000)).El producto L(β) = ∏ L i (β), i ∈ {1, . . . , p} se <strong>de</strong>nomina verosimilitud parcial y fueintroducida por Cox (1972). La maximización <strong>de</strong> log(L(β)) da una estimación para β sinnecesidad <strong>de</strong> estimar el parámetro λ 0 (t).5.1. Contrastes <strong>de</strong> hipótesisUna vez que se ha ajustado un mo<strong>de</strong>lo <strong>de</strong> Cox, es necesario verificar su significación. Paraello exist<strong>en</strong> tres contrastes <strong>de</strong> hipótesis, todos ellos asintóticam<strong>en</strong>te equival<strong>en</strong>tes.5.1.1. Test <strong>de</strong> razón <strong>de</strong> verosimilitudEste test se <strong>de</strong>fine como:LR = 2log(L(β 0 )) − log(L(̂β)) ≈ χ 2 p42


CAPÍTULO 5. NUEVA PROPUESTA CON EL MODELO DE REGRESIÓN DE COXdon<strong>de</strong> β 0 son los valores iniciales <strong>de</strong> los coefici<strong>en</strong>tes y ̂β es la solución luego <strong>de</strong> ajustar elmo<strong>de</strong>lo.Este es el test que pres<strong>en</strong>tan por <strong>de</strong>fecto los paquetes computacionales.5.1.2. Test <strong>de</strong> WaldEste es, quizás, el test más natural <strong>de</strong>bido a que proporciona un contraste para las variables<strong>en</strong> vez <strong>de</strong> una medida <strong>de</strong> significación global.Sea b = (b 1 , . . . , b p ) t el vector que ti<strong>en</strong>e como compon<strong>en</strong>tes los estimadores máximo verosímiles<strong>de</strong> β. I(β) es la matriz <strong>de</strong> información <strong>de</strong> Fisher evaluada <strong>en</strong> β.El vector b es un vector aleatorio <strong>de</strong> distribución normal con media β y matriz <strong>de</strong> varianzasy covarianzas estimada por I −1 (b).El estadístico <strong>de</strong> contraste se <strong>de</strong>fine mediante:W = (b − β 0 ) t I(b)(b − β 0 ) ≈ χ 2 pSi la hipótesis nula (H 0 : β = β 0 ) se acepta se ti<strong>en</strong>e que W ≈ χ 2 p.5.1.3. Test <strong>de</strong> las puntuaciones (score test)Esta prueba se basa <strong>en</strong> el vector U(β) = (U 1 (β), . . . , U p (β)) t don<strong>de</strong> U i (β) es la <strong>de</strong>rivadaparcial <strong>de</strong> la función <strong>de</strong> log verosimilitud parcial con respecto a β i , i ∈ {1, . . . , p}. Paramuestras gran<strong>de</strong>s U(β) ti<strong>en</strong>e distribución asintótica normal con media el vector cero ymatriz <strong>de</strong> varianzas y covarianzas I(β) cuando la hipótisis nula es cierta, si<strong>en</strong>do H 0 : β =β 0 .Este test está <strong>de</strong>finido como:S = U(β 0 ) t I −1 (β 0 )U(β 0 )Cuando se acepta la hipótesis nula se ti<strong>en</strong>e S ≈ χ 2 p.En los tres casos se rechaza la hipótesis nula, H 0 : β = β 0 , si el estadístico es > χ 2 p,α.43


CAPÍTULO 5. NUEVA PROPUESTA CON EL MODELO DE REGRESIÓN DE COX5.2. Análisis <strong>de</strong> residuosLos residuos <strong>de</strong> Scho<strong>en</strong>feld (1980) se <strong>de</strong>fin<strong>en</strong> como la matriz:s i (β) = X i (t i ) − ¯X(β, t i )don<strong>de</strong> i y t i , i ∈ {1, . . . , p} son los individuos y el tiempo <strong>de</strong> ocurr<strong>en</strong>cia <strong>de</strong>l ev<strong>en</strong>to respectivam<strong>en</strong>te,X i es el vector <strong>de</strong> variables para el paci<strong>en</strong>te i-ésimo y ¯X(β, t i ) es la media <strong>de</strong>las variables para aquellos individuos todavía <strong>en</strong> riesgo <strong>en</strong> el tiempo t.Sigui<strong>en</strong>do con la notación <strong>de</strong> Thernau y Grambsch (2000), <strong>de</strong>finimos ¯X(β, t i ) como:∑Yj (t i )r j (t i )X j (t i )¯X(β, t i ) = ∑Yj (t i )r j (t i )La matriz s ij ti<strong>en</strong>e una fila por ev<strong>en</strong>to (muerte) y una columna por variable.Bajo el supuesto <strong>de</strong> riesgos proporcionales, los residuos <strong>de</strong> Scho<strong>en</strong>feld son útiles <strong>en</strong> laevaluación <strong>de</strong> la t<strong>en</strong><strong>de</strong>ncia <strong>en</strong> el tiempo o <strong>de</strong> la falta <strong>de</strong> proporcionalidad.5.3. ResultadosUn estudio <strong>de</strong> la GESMD mostró que una sobrecarga <strong>de</strong> hierro, <strong>de</strong>finida como ferritinasérica superior a 1000 ng/ml, ti<strong>en</strong>e un efecto peyorativo no sólo <strong>en</strong> la superviv<strong>en</strong>cia globalsinó también <strong>en</strong> el riesgo <strong>de</strong> evolución a Leucemia Mieloi<strong>de</strong> Aguda, tanto <strong>en</strong> paci<strong>en</strong>tes <strong>de</strong>bajo como <strong>de</strong> alto riesgo.Esta variable continua fue recogida <strong>en</strong> los paci<strong>en</strong>tes incluídos <strong>en</strong> la base <strong>de</strong> datos usada.A su vez, también fue recogida <strong>de</strong> forma dicotómica la variable transfusiones previas.La importancia <strong>de</strong> esta variable radica <strong>en</strong> los niveles <strong>de</strong> ferritina <strong>en</strong> el mom<strong>en</strong>to <strong>de</strong>ldiagnóstico, los cuales se increm<strong>en</strong>tan <strong>en</strong> estos paci<strong>en</strong>tes. Esta variable toma valor 1 paraindicar que la transfusión previa es conocida y, toma valor 2 como indicador <strong>de</strong> la aus<strong>en</strong>cia<strong>de</strong> transfusión previa <strong>en</strong> la historia <strong>clínica</strong> o que no es conocida.Con int<strong>en</strong>ción <strong>de</strong> averiguar si estas variables pue<strong>de</strong>n aportar información adicional a laclasificación <strong>de</strong> los paci<strong>en</strong>tes <strong>de</strong> forma más precisa y eficaz, hemos analizado el mo<strong>de</strong>lo <strong>de</strong>Cox con dichas variables. En capítulos anteriores hemos visto como el marcador propuesto,IPSS-R, mejoraba ligeram<strong>en</strong>te al marcador tradicional. Veamos si el aporte <strong>de</strong> una nuevavariable pue<strong>de</strong> aportar más información.A continuación se pres<strong>en</strong>tan las salidas aportadas por R para el mo<strong>de</strong>lo <strong>de</strong> Cox correspondi<strong>en</strong>tea la incorporación <strong>de</strong> cada variable.44


CAPÍTULO 5. NUEVA PROPUESTA CON EL MODELO DE REGRESIÓN DE COXEn primer lugar se muestran los resultados para la incorporación <strong>de</strong> la variable continuaFerritina al marcador IPSS-R.coef exp(coef) se(coef) z Pr(>|z|)factor(IPSS-R)2 0.4871477 1.6276670 0.2715737 1.794 0.072846 .factor(IPSS-R)3 1.0657252 2.9029435 0.2922761 3.646 0.000266 ***factor(IPSS-R)4 1.8261278 6.2097945 0.3077544 5.934 2.96e-09 ***factor(IPSS-R)5 2.1464477 8.5544165 0.3274541 6.555 5.57e-11 ***FERRITINA 0.0003458 1.0003458 0.0001248 2.771 0.005597 **---Signif. co<strong>de</strong>s: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1exp(coef) exp(-coef) lower .95 upper .95factor(IPSS-R)2 1.628 0.6144 0.9559 2.772factor(IPSS-R)3 2.903 0.3445 1.6370 5.148factor(IPSS-R)4 6.210 0.1610 3.3972 11.351factor(IPSS-R)5 8.554 0.1169 4.5026 16.252FERRITINA 1.000 0.9997 1.0001 1.001Concordance= 0.698 (se = 0.024 )Rsquare= 0.216 (max possible= 0.994 )Likelihood ratio test= 82.53 on 5 df, p=2.22e-16Wald test = 93.38 on 5 df, p=0Score (logrank) test = 112.2 on 5 df, p=0Se observa que la variable Ferritina es significativa, con un p-valor inferior al 0.01. Estemo<strong>de</strong>lo resulta significativo para cualquiera <strong>de</strong> los tres criterios <strong>de</strong>bido a que los p-valoresson inferiores al 0.01.La sigui<strong>en</strong>te salida se correspon<strong>de</strong> al ajuste mediante el mo<strong>de</strong>lo <strong>de</strong> Cox para la incorporación<strong>de</strong> la variable Transfusión Previa.coef exp(coef) se(coef) z Pr(>|z|)factor(IPSS-R)2 0.4466 1.5630 0.2724 1.640 0.101097factor(IPSS-R)3 0.9553 2.5995 0.2967 3.220 0.001284 **factor(IPSS-R)4 1.7293 5.6365 0.3114 5.553 2.82e-08 ***factor(IPSS-R)5 2.1498 8.5835 0.3265 6.585 4.55e-11 ***factor(tp)2 -0.6870 0.5031 0.1866 -3.681 0.000232 ***---Signif. co<strong>de</strong>s: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1exp(coef) exp(-coef) lower .95 upper .95factor(IPSS-R)2 1.5630 0.6398 0.9164 2.665745


CAPÍTULO 5. NUEVA PROPUESTA CON EL MODELO DE REGRESIÓN DE COXfactor(IPSS-R)3 2.5995 0.3847 1.4532 4.6500factor(IPSS-R)4 5.6365 0.1774 3.0614 10.3778factor(IPSS-R)5 8.5835 0.1165 4.5265 16.2765factor(tp)2 0.5031 1.9878 0.3489 0.7253Concordance= 0.711 (se = 0.023 )Rsquare= 0.228 (max possible= 0.994 )Likelihood ratio test= 88.2 on 5 df, p=0Wald test = 99.19 on 5 df, p=0Score (logrank) test = 120 on 5 df, p=0El p-valor para esta variable discreta es mucho m<strong>en</strong>or que <strong>en</strong> el caso anterior. Es <strong>de</strong>cir,la incorporación <strong>de</strong> esta variable al mo<strong>de</strong>lo es mucho más significativa. En cuanto a losp-valores <strong>de</strong> los criterios usados, todos ellos son significativos.Por último, veamos si es más significativa la aportación <strong>de</strong> las dos variables <strong>en</strong> conjunto:coef exp(coef) se(coef) z Pr(>|z|)factor(IPSS-R)2 0.4204180 1.5225979 0.2734575 1.537 0.12419factor(IPSS-R)3 0.9344180 2.5457314 0.2972751 3.143 0.00167 **factor(IPSS-R)4 1.7202707 5.5860403 0.3109414 5.532 3.16e-08 ***factor(IPSS-R)5 2.0933694 8.1122023 0.3273060 6.396 1.60e-10 ***FERRITINA 0.0002196 1.0002196 0.0001359 1.615 0.10625factor(tp)2 -0.5844961 0.5573866 0.1985788 -2.943 0.00325 **---Signif. co<strong>de</strong>s: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1exp(coef) exp(-coef) lower .95 upper .95factor(IPSS-R)2 1.5226 0.6568 0.8909 2.6023factor(IPSS-R)3 2.5457 0.3928 1.4216 4.5588factor(IPSS-R)4 5.5860 0.1790 3.0369 10.2749factor(IPSS-R)5 8.1122 0.1233 4.2711 15.4079FERRITINA 1.0002 0.9998 1.0000 1.0005factor(tp)2 0.5574 1.7941 0.3777 0.8226Concordance= 0.7 (se = 0.024 )Rsquare= 0.234 (max possible= 0.994 )Likelihood ratio test= 90.57 on 6 df, p=0Wald test = 100.9 on 6 df, p=0Score (logrank) test = 122.2 on 6 df, p=0Se observa que al incorporar ambas variables, la Ferritina <strong>de</strong>ja <strong>de</strong> ser significativa, conlo cual, este mo<strong>de</strong>lo no nos aporta más información que los anteriores. Nos c<strong>en</strong>tramos<strong>en</strong>tonces <strong>en</strong> los dos primeros ajustes.46


CAPÍTULO 5. NUEVA PROPUESTA CON EL MODELO DE REGRESIÓN DE COXLa interpretación <strong>de</strong> los coefici<strong>en</strong>tes <strong>de</strong> un mo<strong>de</strong>lo <strong>de</strong> ajuste <strong>de</strong> Cox <strong>de</strong>b<strong>en</strong> hacerse através <strong>de</strong> la evaluación <strong>de</strong> la función expon<strong>en</strong>cial evaluada sobre los coefici<strong>en</strong>tes estimadospara cada variable. Debe t<strong>en</strong>erse <strong>en</strong> cu<strong>en</strong>ta que esta interpretación difiere para variablescontinuas y discretas.Interpretación para la Ferritina:El expon<strong>en</strong>cial <strong>de</strong>l coefici<strong>en</strong>te estimado para la Ferritina es 1.000. Así por cada1000 ng/ml que aum<strong>en</strong>ta el nivel <strong>de</strong> Ferritina <strong>en</strong> el paci<strong>en</strong>te, su riesgo <strong>de</strong> muerte semanti<strong>en</strong>e constante.Por ser una variable continua, la interpretación pue<strong>de</strong> hacerse para un rango <strong>de</strong>Ferritin sérica, utilizando exp(c ˆβ) <strong>en</strong> vez <strong>de</strong> exp( ˆβ), si<strong>en</strong>do c el número <strong>de</strong> unida<strong>de</strong>s<strong>de</strong> Ferritina sérica cont<strong>en</strong>idas <strong>en</strong> ese rango.Interpretación para la variable Transfusión Previa:Para el caso <strong>de</strong> la variable Transfusión Previa, la interpretación es distinta. En estecaso t<strong>en</strong>emos una variable discreta, para la cual se toma como refer<strong>en</strong>cia el valor 1,indicador <strong>de</strong> transfusión previa conocida. Por lo tanto, vamos a comparar el riesgo<strong>de</strong> muerte si un paci<strong>en</strong>te no realizó transfusión previa fr<strong>en</strong>te a uno que si la realizó.El expon<strong>en</strong>cial <strong>de</strong>l coefici<strong>en</strong>te estimado para los individuos sin transfusión previa es0.503, con lo cual, la aus<strong>en</strong>cia <strong>de</strong> transfusiones disminuye el riesgo <strong>de</strong> muerte hastaun 50 % aproximadam<strong>en</strong>te. Es <strong>de</strong>cir, <strong>en</strong> vez <strong>de</strong> tratarse <strong>de</strong> un factor <strong>de</strong> riesgo, elhecho <strong>de</strong> no recibir transfusiones previas se consi<strong>de</strong>ra un factor protector.Una condición indisp<strong>en</strong>sable para la aceptación <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> Cox es la verificación <strong>de</strong>lsupuesto <strong>de</strong> riesgos proporcionales.El método que usaremos para comprobar si se verifica el supuesto <strong>de</strong> riesgos proporcionales<strong>en</strong> cada uno <strong>de</strong> los ajustes <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> Cox será analizando los residuos <strong>de</strong> Scho<strong>en</strong>feld.Las pruebas para el supuesto <strong>de</strong> riesgos proporcionales basadas <strong>en</strong> los residuos <strong>de</strong> Scho<strong>en</strong>feldse obtin<strong>en</strong> usando la función cox.zph, disponible <strong>en</strong> el paquete survival <strong>de</strong> R. Estafunción calcula un test <strong>de</strong> proporcionalidad para cada variable junto con un test globalpara el mo<strong>de</strong>lo.En primer lugar se pres<strong>en</strong>tan los residuos <strong>de</strong> Scho<strong>en</strong>feld para el mo<strong>de</strong>lo con la Ferritinay, <strong>en</strong> segundo lugar, para la incorporación <strong>de</strong> la Transfusión Previa.rho chisq pfactor(IPSS-R)2 -0.041325 2.71e-01 0.602factor(IPSS-R)3 -0.152890 3.68e+00 0.055factor(IPSS-R)4 -0.033172 1.76e-01 0.675factor(IPSS-R)5 -0.094516 1.43e+00 0.231FERRITINA 0.000286 1.56e-05 0.997GLOBAL NA 6.01e+00 0.30547


CAPÍTULO 5. NUEVA PROPUESTA CON EL MODELO DE REGRESIÓN DE COXrho chisq pfactor(IPSS-R)2 -0.0403 0.255 0.6136factor(IPSS-R)3 -0.1479 3.499 0.0614factor(IPSS-R)4 -0.0275 0.121 0.7284factor(IPSS-R)5 -0.0617 0.590 0.4423factor(tp)2 0.0311 0.161 0.6884GLOBAL NA 6.037 0.3026Por lo que, no exist<strong>en</strong> evi<strong>de</strong>ncias significativas al 5 % <strong>de</strong> que se viole el supuesto <strong>de</strong> riesgosproporcionales para ninguna <strong>de</strong> las variables <strong>de</strong> cada mo<strong>de</strong>lo, ni globalm<strong>en</strong>te.A continuación, se muestran los resultados <strong>de</strong>l análisis <strong>de</strong> <strong>predicción</strong> <strong>clínica</strong> para ambosmo<strong>de</strong>los.En primer lugar se pres<strong>en</strong>tan las curvas ROC <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong>l tiempo como medida <strong>de</strong>discriminación <strong>en</strong>tre el mo<strong>de</strong>lo basado <strong>en</strong> el marcador IPSS-R junto a la variable Ferritinay el mo<strong>de</strong>lo basado <strong>en</strong> el marcador IPSS-R junto a la variable Transfusión Previa, Figura5.1.S<strong>en</strong>sibilidad0.0 0.2 0.4 0.6 0.8 1.0IPSS−R + ferritinaIPSS−R + tp0.0 0.2 0.4 0.6 0.8 1.0IPSS−R + ferritinaIPSS−R + tp0.0 0.2 0.4 0.6 0.8 1.0IPSS−R + ferritinaIPSS−R + tp0.0 0.2 0.4 0.6 0.8 1.00.0 0.2 0.4 0.6 0.8 1.00.0 0.2 0.4 0.6 0.8 1.01 − especificidadFigura 5.1: Curvas ROC <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong>l tiempo para ambos mo<strong>de</strong>los <strong>en</strong> los tiempos t= 365, 1095 y 1825 días.En la Tabla 5.1 se muestra el AUC correspondi<strong>en</strong>te a cada mo<strong>de</strong>lo para los tiempos t =365, 1095 y 1825 días, respectivam<strong>en</strong>te.48


CAPÍTULO 5. NUEVA PROPUESTA CON EL MODELO DE REGRESIÓN DE COXIPSS-R + Ferritina IPSS-R + tpt = 365 días 74.50 78.94t = 1095 días 72.58 74.30t = 1825 días 72.75 73.34Tabla 5.1: Resum<strong>en</strong> AUC(t) para cada mo<strong>de</strong>lo.En este caso se observa que la variable Transfusión Previa ti<strong>en</strong>e una mayor aportación <strong>en</strong>la discriminación que la variable Ferritina. Es necesario comprobar que estas difer<strong>en</strong>cias<strong>en</strong>tre los AUCs son estadísticam<strong>en</strong>te significativas, para ello realizamos el test <strong>de</strong> Wilcoxonpara muestras <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes. Los resultados se pue<strong>de</strong>n apreciar <strong>en</strong> la Tabla 5.2.IPSS-R + Ferritina IPSS-R + tp p-valort = 365 días 69.68 74.35 1.00e-61t = 1095 días 71.53 75.09 7.32e-181t = 1825 días 72.09 74.95 5.61e-300Tabla 5.2: Resultados <strong>de</strong>l test <strong>de</strong> Wilcoxon para ambos mo<strong>de</strong>los.Tras ver los resultados <strong>de</strong>l test <strong>de</strong> Wilcoxon po<strong>de</strong>mos afirmar que las difer<strong>en</strong>cias <strong>en</strong>treambos mo<strong>de</strong>los son significativas, t<strong>en</strong>i<strong>en</strong>do una mayor capacidad discriminatoria el mo<strong>de</strong>lobasado <strong>en</strong> el marcador IPSS-R junto a la variable Transfusión Previa.Si comparamos los AUCs <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes <strong>de</strong>l tiempo <strong>en</strong>tre el marcador IPSS-R y el mismomarcador con la variable tp, se ti<strong>en</strong>e que la información que aporta esta variable essignificativa, Tabla 5.3.IPSS-R IPSS-R + tp p-valort = 365 días 72.51 74.35 1.69e-60t = 1095 días 70.69 75.09 1.38e-179t = 1825 días 69.92 74.95 5.61e-300Tabla 5.3: Resultados <strong>de</strong>l test <strong>de</strong> Wilcoxon para comparar ambos mo<strong>de</strong>los.Al contrario que el AUC, que resultó significativam<strong>en</strong>te mayor para la incorporación <strong>de</strong>una variable al sistema <strong>de</strong> pronóstico, la puntuación <strong>de</strong> Brier no pres<strong>en</strong>ta difer<strong>en</strong>ciasnotables <strong>en</strong>tre los mo<strong>de</strong>los propuestos como se refleja <strong>en</strong> la Figura 5.2.49


CAPÍTULO 5. NUEVA PROPUESTA CON EL MODELO DE REGRESIÓN DE COXFigura 5.2: Puntuación <strong>de</strong> Brier para los tres mo<strong>de</strong>los propuestos.Como última medida <strong>de</strong> discriminación pres<strong>en</strong>tamos el índice <strong>de</strong> concordancia C, para elque se aporta su estimación, el error estándar, los intervalos <strong>de</strong> confianza y los p-valores,Tabla5.4.Ĉ se IC (95 %) p-valorIPSS-R + Ferritina 0.698 0.022 (0.655, 0.741) 1.04e-19IPSS-R + tp 0.750 0.022 (0.708, 0.793) 4.84e-31Tabla 5.4: Índice <strong>de</strong> concordandia para ambos mo<strong>de</strong>los.Pres<strong>en</strong>ta un mayor índice <strong>de</strong> concordancia el mo<strong>de</strong>lo con el aporte <strong>de</strong> la TransfusiónPrevia. El test <strong>de</strong> Stu<strong>de</strong>nt para muestras <strong>de</strong>p<strong>en</strong>di<strong>en</strong>tes da p − valor = 1,56e − 12 < 0,05con lo cual, se verifica que las difer<strong>en</strong>cias <strong>en</strong>tre los índices C son significativas. Es <strong>de</strong>cir,el aporte <strong>de</strong> esta nueva variable al marcador IPSS-R es mucho mejor que el aporte quepue<strong>de</strong> añadir la variable Ferritina.50


Capítulo 6Otras aplicaciones realizadas <strong>en</strong> laUnidad <strong>de</strong> Epi<strong>de</strong>miologíaPor último, se pres<strong>en</strong>ta un breve resum<strong>en</strong> <strong>de</strong> lo que ha sido mi paso por la Unidad<strong>de</strong> Epi<strong>de</strong>miología Clínica <strong>de</strong>l Hospital Clínico Universitario <strong>de</strong> Santiago <strong>de</strong> Compostela.Hasta el mom<strong>en</strong>to se llevó a cabo la <strong>de</strong>scripción <strong>de</strong> un caso concreto realizado <strong>en</strong> estaUnidad <strong>de</strong> forma más individualizada.A<strong>de</strong>más <strong>de</strong>l tema expuesto, se han llevado a cabo otras tareas como consultas <strong>clínica</strong>s yla asist<strong>en</strong>cia a sesiones <strong>de</strong> carácter formativo.En dichas sesiones fueron expuestos diversos temas, tanto <strong>de</strong> índole <strong>clínica</strong> como estadística.Entre los temas tratados po<strong>de</strong>mos <strong>de</strong>stacar:La elaboración <strong>de</strong> proyectos <strong>de</strong> investigación.El <strong>en</strong>sayo clínico.Una introducción a los mo<strong>de</strong>los mixtos.La importancia <strong>de</strong>l tamaño muestral.Una breve introducción al tratami<strong>en</strong>to <strong>de</strong> datos espacio-temporales usando los programasR y BayesX.Entre las tareas realizadas se <strong>en</strong>cu<strong>en</strong>tran las sigui<strong>en</strong>tes consultas a las que se le dio respuestadurante el período <strong>de</strong> la prácticas:Análisis <strong>de</strong> superviv<strong>en</strong>cia <strong>en</strong> paci<strong>en</strong>tes con tumor <strong>de</strong> pancreas. La base <strong>de</strong> datosconstaba <strong>de</strong> 460 registros <strong>de</strong> paci<strong>en</strong>tes diagnosticados con dicha <strong>en</strong>fermedad. El51


CAPÍTULO 6. OTRAS APLICACIONES REALIZADAS EN LA UNIDAD DEEPIDEMIOLOGÍAobjetivo <strong>de</strong>l estudio era comprobar la efectividad <strong>de</strong>l uso <strong>de</strong> un marcador a la hora<strong>de</strong> pre<strong>de</strong>cir el comportami<strong>en</strong>to <strong>de</strong>l tumor. Para ello se usaron las curvas Kaplan-Meier, disponibles <strong>en</strong> el paquete survival <strong>de</strong> R.Determinación <strong>de</strong> la utilidad <strong>de</strong> tres marcadores <strong>en</strong> el diagnóstico <strong>de</strong>l HiperaldosterismoPrimario (HAP). Para ello se estudiaron 220 individuos diagnosticados <strong>de</strong>hipert<strong>en</strong>sión arterial.En primer lugar se repres<strong>en</strong>taron las curvas <strong>de</strong> <strong>de</strong>nsidad para los marcadores usados,<strong>en</strong> relación a la pres<strong>en</strong>cia o no <strong>de</strong> HAP. A continuación, se <strong>de</strong>terminaron las curvasROC y las áreas bajo la curva ROC, hallando sus correspondi<strong>en</strong>tes puntos <strong>de</strong> corteóptimos mediante el índice <strong>de</strong> You<strong>de</strong>n. Para dichos puntos se calcula la s<strong>en</strong>sibilidad,especificidad, valores predictivos, razones <strong>de</strong> probabilidad y precisión diagnóstica<strong>de</strong> los difer<strong>en</strong>tes marcadores. Para la realización <strong>de</strong> estos análisis se ha utilizado elpaquete pROC disponible <strong>en</strong> R.Evaluación <strong>de</strong> la inci<strong>de</strong>ncia y los predictores para cada transición experim<strong>en</strong>tadapor los sujetos a estudio. Se dispone <strong>de</strong> 408 individuos con Ablación <strong>de</strong> Fluter (AFl)los cuales pue<strong>de</strong>n experim<strong>en</strong>tar difer<strong>en</strong>tes estados: <strong>de</strong>sarrollar Fibrilación Auricular(AF), un Acci<strong>de</strong>nte Cerebrovascular (STROKE), ambas arritmias, o ningunay finalm<strong>en</strong>te, pue<strong>de</strong>n morir. Se trata <strong>de</strong> un mo<strong>de</strong>lo <strong>de</strong> multiestado con 4 estadosposibles.Figura 6.1: Gráfico con los cuatros estados y las posibles transiciones, repres<strong>en</strong>tadas conflechas.Se evaluaron las distintas transiciones durante el curso <strong>de</strong> la <strong>en</strong>fermedad y se estudiaronlos factores <strong>de</strong> pronóstico para cada transición. Todos los análisis estadísticosse llevaron a cabo <strong>en</strong> el software R, utilizando los paquetes: survival, splines,tdc.msm y Epi.Evaluación <strong>de</strong> la influ<strong>en</strong>cia <strong>de</strong> la glucosa <strong>en</strong> la evolución <strong>de</strong> paci<strong>en</strong>tes con trasplantehepático. Se dispone <strong>de</strong> 630 individuos a los que se le realizó un trasplante hepático.El seguimi<strong>en</strong>to mínimo <strong>en</strong> estos paci<strong>en</strong>tes es <strong>de</strong> un año, com<strong>en</strong>zando <strong>de</strong>s<strong>de</strong> el mom<strong>en</strong>toprevio a la cirugía, don<strong>de</strong> se recoge la medida <strong>de</strong> la glucosa basal. El análisisse realiza usando los programas estadísticos R y BayesX. El análisis <strong>de</strong> superviv<strong>en</strong>ciase llevó a cabo usando el paquete survival y splines.52


Refer<strong>en</strong>ciasAkritas M. G., 1994, Nearest neighbor estimation of a bivariant distribution un<strong>de</strong>rrandom c<strong>en</strong>soring. Annals of Statistics 22, 1299-1327.An<strong>de</strong>rson P. K., Borgan O., Gill R. D., Keiding N., 1993, StatisticalMo<strong>de</strong>ls Based on Counting Processes. Ed. Springer.Brier G. W., 1950, Verification of forecasts expressed in terms of probabilities.Monthly Weather Review 78, 1-3.Cox D. R., 1972, Regression mo<strong>de</strong>ls and life-tables. Journal of the Royal StatisticalSociety. Series B 34, 187-220.Cook N. R., 2008, Statistical evaluation of prognostic versus diagnostic mo<strong>de</strong>ls:Beyond the ROC curve. Clinical Chemistry 56, 17-23.Fawcett T., 2006, An Introduction to ROC Analysis. Pattern RecognitionLetters 27, 861-874.Graf E., Schmoor C., Sauerbrei W., Schumacher M., 1999, Assessm<strong>en</strong>tand comparision of prognostic classification schemes for survival data. Statisticsin Medicine 18, 2529-2545.Harrell F. E. Jr., 2001, Regression Mo<strong>de</strong>ling Strategies With Applicationsto Linear Mo<strong>de</strong>ls, Logistic Regression, and Survival Analysis. Ed. Springer.Heagerty P. J., Lumley T., Pepe M. S., 2000, Time-Dep<strong>en</strong><strong>de</strong>nt ROCCurves for C<strong>en</strong>sored Survival Data and a Diagnostic Marker. Biometrics 56, 337-344.Heagerty P. J., Zh<strong>en</strong>g Y., 2005, Survival Mo<strong>de</strong>l Predictive Accuracy andROC Curves. Biometrics; 61, 92-105.Kains H., Desmedt C., Sotiriou C., Bontempi G., 2008, A comparativestudy of survival mo<strong>de</strong>ls for breast cancer prognostication based on microarray data:does a single g<strong>en</strong>e beat them all?. Bioinformatics 24, 2200-2208.53


REFERENCIASKaplan E. L., Meier P., 1958, Non parametric estimation from incompleteobservations. Journal of the American Statistical Association 53, 457-481.P<strong>en</strong>cina M. J., D’Agostino R. B. Sr., 2004, Overall C as a measure ofdiscrimination in survival analysis: mo<strong>de</strong>l specific population value and confi<strong>de</strong>nceinterval estimation. Statistics in Medicine 23, 2109-2123.P<strong>en</strong>cina M. J., D’Agostino R. B. Sr., D’Agostino R. B. Jr., 2008,Evaluating the ad<strong>de</strong>d predictive ability of a new marker: From area un<strong>de</strong>r the ROCcurve to reclassification and beyond. Statistics in Medicine 27, 157 72.P<strong>en</strong>cina M. J., D’Agostino R. B. Sr., Steyerberg E. W., 2011, Ext<strong>en</strong>sionsof net reclassification improvem<strong>en</strong>t calculations to measure usefulness of newbiomarkers. Statistics in Medicine 30, 11-21.Scho<strong>en</strong>feld D., 1980, Chi-squared goodness-of-fit tests for the proportionalhazards regression mo<strong>de</strong>l. Biometrika 67, 145-153.Stev<strong>en</strong>son M., 2009, An Introduction to Survival Analysis.Steyerberg E. W., 2009, Clinical Prediction Mo<strong>de</strong>ls: A Practical Approachto Developm<strong>en</strong>t, Validation, and Updating. Ed. Springer.Therneau T. M., Grambsch P. M., 2000, Mo<strong>de</strong>ling Survival Data: Ext<strong>en</strong>dingthe Cox Mo<strong>de</strong>l.Ed. Springer.Wilcoxon F., 1945, Individual Comparisions by Ranking Methods.BiometricsBulletin 1, 80-83.54

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!