16.11.2014 Views

modelli predittivi - Centro per lo Studio e la Prevenzione Oncologica ...

modelli predittivi - Centro per lo Studio e la Prevenzione Oncologica ...

modelli predittivi - Centro per lo Studio e la Prevenzione Oncologica ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

I LUNEDI’ SENOLOGICI<br />

Incontri multidisciplinari di seno<strong>lo</strong>gia<br />

Firenze 9 Marzo 2009<br />

MODELLI PREDITTIVI<br />

Decarli Adriano - Istituto di Statistica Medica e Biometria “Giulio A. Maccacaro” - Università di Mi<strong>la</strong>no<br />

Fondazione IRCCS-INT Mi<strong>la</strong>no


Scopo: C<strong>la</strong>ssificazione<br />

Chi ha bisogno di cosa?<br />

C<strong>la</strong>ssificazione del Rischio<br />

Intervento<br />

Medio<br />

Standard :<br />

raccomandazioni<br />

Storia,<br />

stili di vita<br />

Moderato<br />

(”‏Famigliare‏“)‏<br />

<strong>Prevenzione</strong> <strong>per</strong>sonalizzata:<br />

Raccomandazioni<br />

Alto/Genetico<br />

Test genetici<br />

Con prevenzione <strong>per</strong>sonalizzata


EZIOLOGIA<br />

• ~5-10% hanno una forte componente<br />

ereditaria<br />

• ~15-20% sono famigliari/multifattoriali<br />

• ~70-75% si c<strong>la</strong>ssificano sporadici


Tipo<strong>lo</strong>gie di <strong>modelli</strong><br />

Modelli di predizione del rischio di ma<strong>la</strong>ttia.<br />

Qual è <strong>la</strong> probabilità di sviluppare il cancro al seno?<br />

Modelli di predizione del<strong>la</strong> suscettibilità genetica.<br />

Qual è <strong>la</strong> probabilità di trovare una mutazione nei geni<br />

BRCA1 e BRCA2?<br />

COMPLEMENTARI


BRCA1/2 Mutation Incidence<br />

• 1 in 800 women in the general popu<strong>la</strong>tion<br />

• 5-10% of all women with breast CA<br />

• 18% of women with breast CA


Screening for “Familial Cancer”<br />

• Help your patients collect appropriate<br />

Family History Details:<br />

– Type of primary cancer(s) in each re<strong>la</strong>tive<br />

– Age of disease onset in each re<strong>la</strong>tive<br />

– Cancer status in 1 st and 2 nd degree<br />

re<strong>la</strong>tives<br />

– Cancer status in both sides of the family<br />

– Other medical findings – benign tumors, etc.


C<strong>la</strong>us Model<br />

• Calcu<strong>la</strong>tes risk of breast CA to age 80 based on:<br />

– Age of onset of breast cancer in 1 st and 2 nd degree<br />

re<strong>la</strong>tives, including paternal<br />

• Limitations:<br />

– May underestimate risk in families with 3 or more<br />

affected members;<br />

C<strong>la</strong>us EB et al. Cancer 73:643-651 (1994)


Modelli Predittivi<br />

• Definizione : Un procedimento che utilizza i dati<br />

e <strong>la</strong> conoscenza disponibili <strong>per</strong> identificare<br />

<strong>per</strong>sone che risultano a “rischio” (probabilmente<br />

necessiteranno di un utilizzo dei servizi sanitari<br />

su<strong>per</strong>iori al<strong>la</strong> media nel futuro );<br />

• Informazione re<strong>la</strong>tiva al tempo t è utilizzata <strong>per</strong><br />

predire t+k


Modelli Predittivi<br />

• Siamo “inondati” di dati e cerchiamo di<br />

utilizzarli in modo sistematico <strong>per</strong><br />

migliorare efficacia ed efficienza.<br />

• Siamo carenti di risorse e convinti che<br />

intervenire prima sia meglio che mettere in<br />

“lista d’attesa poi”


Modelli Predittivi<br />

• In tempi di inf<strong>la</strong>zione medica è<br />

comprensibile focalizzarsi su soggetti a<br />

potenziale alto rischio.<br />

• La gestione dei ‘casi’ e <strong>la</strong> gestione del<strong>la</strong><br />

‘ma<strong>la</strong>ttia’ sono ubiquitari. MP potrebbero<br />

aiutare a finalizzare i programmi.


Applicazioni di un model<strong>lo</strong><br />

predittivo di rischio<br />

• Pianificazione di studi di intervento<br />

• Definizione di indici beneficio/rischio<br />

• Stima costi del<strong>la</strong> ma<strong>la</strong>ttia a livel<strong>lo</strong><br />

popo<strong>la</strong>zione<br />

• Identificazione di soggetti a rischio<br />

• Disegno di strategie preventive a livel<strong>lo</strong> di<br />

popo<strong>la</strong>zione<br />

• Ausilio al<strong>la</strong> decisione clinica (genetic(‏counseling


Modelli Predittivi di Rischio<br />

• Input :<br />

– Età e Fattori di Rischio<br />

– Periodo a rischio<br />

• Output :<br />

– Stima individuale del Rischio assoluto in un<br />

definito interval<strong>lo</strong> di tempo (es: prossimi 5<br />

anni).


Gail Model<br />

• Calcu<strong>la</strong>tes 5 yr and lifetime risk (to 90 yrs) of<br />

breast cancer based on multiple criteria<br />

• Limitations: age of onset, 2 nd degree re<strong>la</strong>tives,<br />

paternal history, ovarian cancer, ethnicity not<br />

included in risk analysis<br />

http://bcra.nci.nih.gov/brc/start.htm<br />

Gail MH: J Natl Cancer Inst (1989); 81; 24; 1979-1886.


Rischio Assoluto di cancro<br />

nell’interval<strong>lo</strong> [a, a+τ]<br />

r x a P T a causa c T a x<br />

( ; , τ ) = ( ≤ + τ, = 1| > ; )<br />

a+ τ<br />

⎡ t<br />

⎤<br />

= ∫ (, )exp ⎢− ∫{ ( , ) + ( )}<br />

1 1 2<br />

a<br />

h t x h u x h u du dt<br />

h1<br />

t x<br />

h2<br />

t<br />

⎢<br />

⎣<br />

a<br />

( , ) - incidenza del tumore all'età t<br />

( ) - mortalità competitiva<br />

x - fattori di rischio/protezione individuali<br />

⎥<br />

⎥<br />


Rischio Assoluto individuale di<br />

Cancro da Studi di Coorte<br />

• Cox proportional hazards<br />

h (t;x) = h (t)exp( βx)<br />

1 10<br />

Benichou and Gail, Biometrics 1990<br />

Anderson, Borgan, Gill, Keiding 1993<br />

• Cumu<strong>la</strong>tive incidence regression<br />

g{Prob(event1at T ≤ t;x)}=h<br />

0<br />

(t) + β x<br />

Fine and Gray, JASA 1999


Campionamento da una coorte :<br />

Stima di Rischi Re<strong>la</strong>tivi<br />

Stima di Rischi Cumu<strong>la</strong>tivi<br />

(‏Cox (Model<strong>lo</strong> di<br />

• Disegno Caso-coorte<br />

– Prentice and Self, Annals Stat, 1988<br />

• Disegno caso-control<strong>lo</strong> nested<br />

– Borgan, Goldstein, Langholz, Annals<br />

Stat, 1995


Studi di Coorte: Problemi<br />

• Non rappresentativa <strong>per</strong> <strong>la</strong> stima di RA<br />

• Lungo <strong>per</strong>iodo di tempo<br />

• Non rappresentativa <strong>per</strong> quanto si<br />

riferisce alle cause competitive di<br />

morte<br />

• Mancanza di dettagli rispetto alle<br />

variabili di interesse.


Uso combinato di dati da studi<br />

Caso-Control<strong>lo</strong> e Dati derivati da<br />

Registri Tumore<br />

<strong>Studio</strong> Caso - Control<strong>lo</strong><br />

Odds Ratio, r(t)<br />

Rischio Attribuibile, AR(t)<br />

Registro<br />

Hazard Età specifici<br />

h(t)<br />

*<br />

1<br />

h (t)={1-AR(t)}h<br />

*<br />

(t)<br />

1 1<br />

Cornfield, JNCI, 1951; Gail et al, JNCI, 1989;<br />

Anderson et al, NSABP, 1992


Vantaggi dell’approccio<br />

Caso-Control<strong>lo</strong>/Registro<br />

• Dettagliate informazioni sulle covariate<br />

• Re<strong>la</strong>tivamente breve durata<br />

• Tassi età-specifici derivati dai registri<br />

più precisi e rappresentativi di quelli<br />

derivati da una coorte<br />

• Più studi caso-control<strong>lo</strong> possono<br />

essere combinati <strong>per</strong> ottenere le stime<br />

dei rischi re<strong>la</strong>tivi.


Svantaggi<br />

• Recall bias<br />

• Casi e controlli devono essere<br />

rappresentativi del<strong>la</strong> popo<strong>la</strong>zione <strong>per</strong><br />

stimare AR<br />

• Registri di popo<strong>la</strong>zione non sono<br />

disponibili <strong>per</strong> molte pato<strong>lo</strong>gie di<br />

interesse (es: stroke, infarto del<br />

(‏miocardio,etc


Validazione del model<strong>lo</strong><br />

• OR e RR<br />

– Dati da studi Caso-control<strong>lo</strong> o di Coorte<br />

(‏concordanza‏)‏ • Area curva ROC<br />

– Casi e non Casi appaiati <strong>per</strong> età<br />

• Calibrazione di AR (i.e. capacità del model<strong>lo</strong><br />

di prevedere il numero di eventi osservati in<br />

(‏popo<strong>la</strong>zione diversi sottogruppi del<strong>la</strong><br />

– dati re<strong>la</strong>tivi a grandi coorti


Valutazione dei <strong>modelli</strong> di rischio<br />

• Capacità predittiva a livel<strong>lo</strong> di gruppi di soggetti:<br />

Calibrazione<br />

• Capacità di separare i soggetti che avranno <strong>la</strong><br />

diagnosi di ma<strong>la</strong>ttia:<br />

– a livel<strong>lo</strong> di gruppo : Accuratezza (accuracy<br />

(‏scores<br />

– a livel<strong>lo</strong> dei singoli individui : Capacità<br />

Discriminatoria ( Discriminatory Accuracy)


Validazione<br />

Popo<strong>la</strong>zione di N isoggetti seguita <strong>per</strong> un<br />

<strong>per</strong>iodo di tempo τ<br />

Sia:<br />

Yi<br />

⎧1, se ith soggetto ha <strong>la</strong> diaagnosi in<br />

0, altrimenti<br />

τ<br />

= ⎨<br />

⎩<br />

;<br />

r<br />

i<br />

= r( xi<br />

a) = rischio assoluto del soggetto ith<br />

con va<strong>lo</strong>ri delle covariate<br />

x<br />

i,<br />

ed età a


Calibrazione del Model<strong>lo</strong><br />

Bontà del model<strong>lo</strong> basata sul critero del confronto<br />

tra il numero di eventi osservati (O) e quel<strong>lo</strong><br />

atteso (A) sul totale del<strong>la</strong> popo<strong>la</strong>zione in studio e<br />

in sottogruppi di essa<br />

N<br />

O = ∑Yi, A=<br />

∑r<br />

i= 1 i=<br />

1<br />

Somma di variabili casuali binomiali indipendenti<br />

con r i


Validation of the model


Concordance Statistics 0.53 0,55


Calibrazione<br />

(‏calibrato Unbiased ( ben<br />

1<br />

N<br />

Ricordando:<br />

1<br />

∫<br />

0<br />

N<br />

∑<br />

Y<br />

i<br />

1<br />

∫<br />

i=<br />

1 0<br />

≈ rdF()<br />

r =<br />

μ<br />

rdF( r) = r( x) dG( x)<br />

∫<br />

X


Brier Score<br />

1<br />

BS = ∑( Oi−ri)<br />

N<br />

i<br />

2<br />

(‏accuratezza Brier Score = Mean Squared Error (misura di<br />

Brier, 1950


Comparison of observed (O) and expected (E) cases of invasive breast cancer (Gail et<br />

al Model 2) in p<strong>la</strong>cebo arm of Breast Cancer Prevention Trial (Table 4, Costantino et al,<br />

JNCI, 1999).<br />

Age<br />

Group<br />

#<br />

women<br />

O<br />

E<br />

E/O<br />

=60<br />

1830<br />

52<br />

54.7<br />

1.1<br />

All<br />

ages<br />

5969<br />

155<br />

159.0<br />

1.0


Validazione del Model<strong>lo</strong> ai fini<br />

di decisione clinica<br />

Nel<strong>la</strong> pratica clinica è necessaria <strong>la</strong> definizione<br />

di una rego<strong>la</strong> di decisione :<br />

δ i<br />

⎧1, se ri<br />

> r*<br />

= ⎨<br />

⎩ 0, altrimenti<br />

<strong>per</strong> qualche predefinito va<strong>lo</strong>re del<strong>la</strong> soglia r*


Per una definita soglia r* <strong>la</strong> sensibilità e<br />

specificità del<strong>la</strong> rego<strong>la</strong> di decisione è :<br />

1<br />

sens(r*)= ∫ rdF( r),<br />

μ<br />

1<br />

0<br />

1<br />

r*<br />

proporzione di casi con r > r*<br />

r*<br />

1<br />

spec(r*)= ∫ (1 − rdFr ) ( )<br />

1−<br />

μ<br />

con μ= rdF( r)<br />

∫<br />

0


Sensibilità e specificita’ non sempre<br />

risultano misure appropriate<br />

Es: ma<strong>la</strong>ttia rara π=P(Y=1)=0.01<br />

Sens =0.95, Spec=0.95<br />

ppv<br />

= P( Y = 1| δ = 1) =<br />

P( δ = 1| Y = 1) π<br />

P( δ = 1| Y = 1) π + P( δ = 1| Y = 0)(1 −π)<br />

=<br />

0.95⋅0.01<br />

0.95⋅ 0.01 + (1 −0.95) ⋅0.99<br />

=<br />

0.16


Accuracy Scores<br />

Misura <strong>la</strong> bontà del<strong>la</strong> previsione del<strong>lo</strong> stato di<br />

salute/ma<strong>la</strong>ttia<br />

Misura il significato clinico del<strong>la</strong> rego<strong>la</strong> di decisione<br />

(Zweig & Campbell, 1993)<br />

ppv = P( Y = 1| δ = 1)<br />

• Va<strong>lo</strong>re Predittivo Positivo<br />

• Va<strong>lo</strong>re Predittivo Negativo<br />

npv = P( Y = 0| δ = 0)<br />

• Combinazioni pesate di entrambi<br />

Dipendono da sensitività, specificità, prevalenza del<strong>la</strong><br />

ma<strong>la</strong>ttia


Misure di Discriminazione<br />

(‏‎1-specificità • Curva ROC ( sensibilità vs<br />

• Area sottesa al<strong>la</strong> curva ROC (AUC)<br />

~Mann-Whitney-Wilcoxon Rank Sum Test<br />

~ Indice di Gini <strong>per</strong> eventi rari<br />

• Statistica di Concordanza (Rockhill et al,<br />

(‏‎2003‎ al, 2001; Bach et<br />

• Area parziale sottesa al<strong>la</strong> curva (Pepe,<br />

(‏‎2003‎ Dodd&Pepe, 2003;


Contesto teorico del<strong>la</strong> decisione<br />

Funzione di costo specifica <strong>per</strong> ogni<br />

combinazione di stato di ma<strong>la</strong>ttia e tipo<br />

di decisione:<br />

Y=0 Y=1<br />

δ=0 C 00 C 01<br />

δ=1 C 10 C 11


Funzione Nota<br />

1 r* 1<br />

EL = C11 rdF r + C 01 rdF r + C10<br />

−r dF r<br />

r* 0 r*<br />

r*<br />

+ C00<br />

(1 −r) dF( r) → min<br />

0<br />

( ) ( ) (1 ) ( )<br />

∫ ∫ ∫<br />

∫<br />

r*<br />

=<br />

C10 − C00<br />

C + C C −C<br />

10 01 − 00 11


EL C C<br />

= 11μ<br />

sens(r*) + 01μ(1 − sens(r*)) +<br />

C<br />

(1 −μ)(1 −spec(r*))+ C (1 −μ)spec(r*)<br />

10 00<br />

If sens(r*)=1 and spec(r*)=1<br />

EL = C11μ<br />

+ C 00(1 −μ)


Casi partico<strong>la</strong>ri<br />

1. C 00 =C 11 =0; C 10 =C 01<br />

overall <strong>lo</strong>ss=misc<strong>la</strong>ssification rate:<br />

r* 1<br />

EL rdFr () (1 rdFr ) ()<br />

= ∫ + ∫ −<br />

0 r*<br />

EL minimizzata <strong>per</strong> r*=0.5


Casi partico<strong>la</strong>ri<br />

.<br />

C00 = C11 = 0; C10


Lo screening mammografico può essere<br />

raccomandato in base ad un model<strong>lo</strong> di<br />

rischio?<br />

Outcome over<br />

next 5 Years<br />

No Screen<br />

Screen<br />

Y=0<br />

(‏cancer (no<br />

0<br />

1<br />

Y=1<br />

(‏cancer‏)‏<br />

100<br />

11


Ratio of Expected Loss to Minimum Expected Loss vs Sensitivity


Studi Intervento<br />

Due esiti possibili: eg Y 1 =BC<br />

Y 2 =STROKE<br />

Y 1 =0 Y 1 =1<br />

Y 2 =0 C 00 C 01<br />

Y 2 =1 C 10 C 11


<strong>Studio</strong> Intervento<br />

L’intervento non modifica i costi, modifica <strong>la</strong><br />

probabilità degli esiti congiunti<br />

Intervento no: P δ=0 (Y 1 , Y 2 )<br />

Intervento sì : P δ=1 (Y 1 , Y 2 )<br />

EL = ∑ C P Y = i Y = j<br />

i, j,<br />

k<br />

ji δ = k( 1 , 2 )


Dovremo considerare <strong>modelli</strong> di rischio<br />

congiunti <strong>per</strong> entrambi gli esiti, Y 1 , Y 2<br />

(‏x‏)‏ Semplificazione : P i (Y 1 =1, Y 2 =1|x) = p 2i r i<br />

p 21 = p 20 k 1<br />

r 1 (x) = r (x) * k 0<br />

EL = ∑ C P Y = i Y = j → r<br />

i, j,<br />

k<br />

ki δ = k( 1 , 2 ) min *


Funzione di <strong>per</strong>dita del<strong>la</strong> decisione clinica: <strong>la</strong> donna<br />

dovrebbe prendere Tamoxifen <strong>per</strong> prevenire il tumore<br />

del<strong>la</strong> mammel<strong>la</strong>?<br />

Over next 5<br />

years<br />

No<br />

Stroke<br />

Stroke<br />

No<br />

Breast cancer<br />

0<br />

1<br />

Breast<br />

cancer<br />

1<br />

2


Ratio of Expected Loss to Expected Loss with sens=spec=1 vs Sensitivity


Conclusioni<br />

• In certi casi (screening) alta sensibilità e<br />

specificità è più importante che in altri<br />

(‏clinica (decisione<br />

• Utilizzare sempre <strong>modelli</strong> ben calibrati<br />

• Gli aspetti discriminatori dei <strong>modelli</strong> a volte<br />

sono meno importanti dell’accuracy e del<strong>la</strong><br />

calibrazione


I - Stasi<br />

II - OrdineIII - Caos IV - Complessità<br />

I - Stasi II - Ordine III - Caos IV - Complessità


E’ molto difficile prevedere,<br />

specialmente il futuro.<br />

(‏Bohr (Niels

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!