modelli predittivi - Centro per lo Studio e la Prevenzione Oncologica ...
modelli predittivi - Centro per lo Studio e la Prevenzione Oncologica ...
modelli predittivi - Centro per lo Studio e la Prevenzione Oncologica ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
I LUNEDI’ SENOLOGICI<br />
Incontri multidisciplinari di seno<strong>lo</strong>gia<br />
Firenze 9 Marzo 2009<br />
MODELLI PREDITTIVI<br />
Decarli Adriano - Istituto di Statistica Medica e Biometria “Giulio A. Maccacaro” - Università di Mi<strong>la</strong>no<br />
Fondazione IRCCS-INT Mi<strong>la</strong>no
Scopo: C<strong>la</strong>ssificazione<br />
Chi ha bisogno di cosa?<br />
C<strong>la</strong>ssificazione del Rischio<br />
Intervento<br />
Medio<br />
Standard :<br />
raccomandazioni<br />
Storia,<br />
stili di vita<br />
Moderato<br />
(”Famigliare“)<br />
<strong>Prevenzione</strong> <strong>per</strong>sonalizzata:<br />
Raccomandazioni<br />
Alto/Genetico<br />
Test genetici<br />
Con prevenzione <strong>per</strong>sonalizzata
EZIOLOGIA<br />
• ~5-10% hanno una forte componente<br />
ereditaria<br />
• ~15-20% sono famigliari/multifattoriali<br />
• ~70-75% si c<strong>la</strong>ssificano sporadici
Tipo<strong>lo</strong>gie di <strong>modelli</strong><br />
Modelli di predizione del rischio di ma<strong>la</strong>ttia.<br />
Qual è <strong>la</strong> probabilità di sviluppare il cancro al seno?<br />
Modelli di predizione del<strong>la</strong> suscettibilità genetica.<br />
Qual è <strong>la</strong> probabilità di trovare una mutazione nei geni<br />
BRCA1 e BRCA2?<br />
COMPLEMENTARI
BRCA1/2 Mutation Incidence<br />
• 1 in 800 women in the general popu<strong>la</strong>tion<br />
• 5-10% of all women with breast CA<br />
• 18% of women with breast CA
Screening for “Familial Cancer”<br />
• Help your patients collect appropriate<br />
Family History Details:<br />
– Type of primary cancer(s) in each re<strong>la</strong>tive<br />
– Age of disease onset in each re<strong>la</strong>tive<br />
– Cancer status in 1 st and 2 nd degree<br />
re<strong>la</strong>tives<br />
– Cancer status in both sides of the family<br />
– Other medical findings – benign tumors, etc.
C<strong>la</strong>us Model<br />
• Calcu<strong>la</strong>tes risk of breast CA to age 80 based on:<br />
– Age of onset of breast cancer in 1 st and 2 nd degree<br />
re<strong>la</strong>tives, including paternal<br />
• Limitations:<br />
– May underestimate risk in families with 3 or more<br />
affected members;<br />
C<strong>la</strong>us EB et al. Cancer 73:643-651 (1994)
Modelli Predittivi<br />
• Definizione : Un procedimento che utilizza i dati<br />
e <strong>la</strong> conoscenza disponibili <strong>per</strong> identificare<br />
<strong>per</strong>sone che risultano a “rischio” (probabilmente<br />
necessiteranno di un utilizzo dei servizi sanitari<br />
su<strong>per</strong>iori al<strong>la</strong> media nel futuro );<br />
• Informazione re<strong>la</strong>tiva al tempo t è utilizzata <strong>per</strong><br />
predire t+k
Modelli Predittivi<br />
• Siamo “inondati” di dati e cerchiamo di<br />
utilizzarli in modo sistematico <strong>per</strong><br />
migliorare efficacia ed efficienza.<br />
• Siamo carenti di risorse e convinti che<br />
intervenire prima sia meglio che mettere in<br />
“lista d’attesa poi”
Modelli Predittivi<br />
• In tempi di inf<strong>la</strong>zione medica è<br />
comprensibile focalizzarsi su soggetti a<br />
potenziale alto rischio.<br />
• La gestione dei ‘casi’ e <strong>la</strong> gestione del<strong>la</strong><br />
‘ma<strong>la</strong>ttia’ sono ubiquitari. MP potrebbero<br />
aiutare a finalizzare i programmi.
Applicazioni di un model<strong>lo</strong><br />
predittivo di rischio<br />
• Pianificazione di studi di intervento<br />
• Definizione di indici beneficio/rischio<br />
• Stima costi del<strong>la</strong> ma<strong>la</strong>ttia a livel<strong>lo</strong><br />
popo<strong>la</strong>zione<br />
• Identificazione di soggetti a rischio<br />
• Disegno di strategie preventive a livel<strong>lo</strong> di<br />
popo<strong>la</strong>zione<br />
• Ausilio al<strong>la</strong> decisione clinica (genetic(counseling
Modelli Predittivi di Rischio<br />
• Input :<br />
– Età e Fattori di Rischio<br />
– Periodo a rischio<br />
• Output :<br />
– Stima individuale del Rischio assoluto in un<br />
definito interval<strong>lo</strong> di tempo (es: prossimi 5<br />
anni).
Gail Model<br />
• Calcu<strong>la</strong>tes 5 yr and lifetime risk (to 90 yrs) of<br />
breast cancer based on multiple criteria<br />
• Limitations: age of onset, 2 nd degree re<strong>la</strong>tives,<br />
paternal history, ovarian cancer, ethnicity not<br />
included in risk analysis<br />
http://bcra.nci.nih.gov/brc/start.htm<br />
Gail MH: J Natl Cancer Inst (1989); 81; 24; 1979-1886.
Rischio Assoluto di cancro<br />
nell’interval<strong>lo</strong> [a, a+τ]<br />
r x a P T a causa c T a x<br />
( ; , τ ) = ( ≤ + τ, = 1| > ; )<br />
a+ τ<br />
⎡ t<br />
⎤<br />
= ∫ (, )exp ⎢− ∫{ ( , ) + ( )}<br />
1 1 2<br />
a<br />
h t x h u x h u du dt<br />
h1<br />
t x<br />
h2<br />
t<br />
⎢<br />
⎣<br />
a<br />
( , ) - incidenza del tumore all'età t<br />
( ) - mortalità competitiva<br />
x - fattori di rischio/protezione individuali<br />
⎥<br />
⎥<br />
⎦
Rischio Assoluto individuale di<br />
Cancro da Studi di Coorte<br />
• Cox proportional hazards<br />
h (t;x) = h (t)exp( βx)<br />
1 10<br />
Benichou and Gail, Biometrics 1990<br />
Anderson, Borgan, Gill, Keiding 1993<br />
• Cumu<strong>la</strong>tive incidence regression<br />
g{Prob(event1at T ≤ t;x)}=h<br />
0<br />
(t) + β x<br />
Fine and Gray, JASA 1999
Campionamento da una coorte :<br />
Stima di Rischi Re<strong>la</strong>tivi<br />
Stima di Rischi Cumu<strong>la</strong>tivi<br />
(Cox (Model<strong>lo</strong> di<br />
• Disegno Caso-coorte<br />
– Prentice and Self, Annals Stat, 1988<br />
• Disegno caso-control<strong>lo</strong> nested<br />
– Borgan, Goldstein, Langholz, Annals<br />
Stat, 1995
Studi di Coorte: Problemi<br />
• Non rappresentativa <strong>per</strong> <strong>la</strong> stima di RA<br />
• Lungo <strong>per</strong>iodo di tempo<br />
• Non rappresentativa <strong>per</strong> quanto si<br />
riferisce alle cause competitive di<br />
morte<br />
• Mancanza di dettagli rispetto alle<br />
variabili di interesse.
Uso combinato di dati da studi<br />
Caso-Control<strong>lo</strong> e Dati derivati da<br />
Registri Tumore<br />
<strong>Studio</strong> Caso - Control<strong>lo</strong><br />
Odds Ratio, r(t)<br />
Rischio Attribuibile, AR(t)<br />
Registro<br />
Hazard Età specifici<br />
h(t)<br />
*<br />
1<br />
h (t)={1-AR(t)}h<br />
*<br />
(t)<br />
1 1<br />
Cornfield, JNCI, 1951; Gail et al, JNCI, 1989;<br />
Anderson et al, NSABP, 1992
Vantaggi dell’approccio<br />
Caso-Control<strong>lo</strong>/Registro<br />
• Dettagliate informazioni sulle covariate<br />
• Re<strong>la</strong>tivamente breve durata<br />
• Tassi età-specifici derivati dai registri<br />
più precisi e rappresentativi di quelli<br />
derivati da una coorte<br />
• Più studi caso-control<strong>lo</strong> possono<br />
essere combinati <strong>per</strong> ottenere le stime<br />
dei rischi re<strong>la</strong>tivi.
Svantaggi<br />
• Recall bias<br />
• Casi e controlli devono essere<br />
rappresentativi del<strong>la</strong> popo<strong>la</strong>zione <strong>per</strong><br />
stimare AR<br />
• Registri di popo<strong>la</strong>zione non sono<br />
disponibili <strong>per</strong> molte pato<strong>lo</strong>gie di<br />
interesse (es: stroke, infarto del<br />
(miocardio,etc
Validazione del model<strong>lo</strong><br />
• OR e RR<br />
– Dati da studi Caso-control<strong>lo</strong> o di Coorte<br />
(concordanza) • Area curva ROC<br />
– Casi e non Casi appaiati <strong>per</strong> età<br />
• Calibrazione di AR (i.e. capacità del model<strong>lo</strong><br />
di prevedere il numero di eventi osservati in<br />
(popo<strong>la</strong>zione diversi sottogruppi del<strong>la</strong><br />
– dati re<strong>la</strong>tivi a grandi coorti
Valutazione dei <strong>modelli</strong> di rischio<br />
• Capacità predittiva a livel<strong>lo</strong> di gruppi di soggetti:<br />
Calibrazione<br />
• Capacità di separare i soggetti che avranno <strong>la</strong><br />
diagnosi di ma<strong>la</strong>ttia:<br />
– a livel<strong>lo</strong> di gruppo : Accuratezza (accuracy<br />
(scores<br />
– a livel<strong>lo</strong> dei singoli individui : Capacità<br />
Discriminatoria ( Discriminatory Accuracy)
Validazione<br />
Popo<strong>la</strong>zione di N isoggetti seguita <strong>per</strong> un<br />
<strong>per</strong>iodo di tempo τ<br />
Sia:<br />
Yi<br />
⎧1, se ith soggetto ha <strong>la</strong> diaagnosi in<br />
0, altrimenti<br />
τ<br />
= ⎨<br />
⎩<br />
;<br />
r<br />
i<br />
= r( xi<br />
a) = rischio assoluto del soggetto ith<br />
con va<strong>lo</strong>ri delle covariate<br />
x<br />
i,<br />
ed età a
Calibrazione del Model<strong>lo</strong><br />
Bontà del model<strong>lo</strong> basata sul critero del confronto<br />
tra il numero di eventi osservati (O) e quel<strong>lo</strong><br />
atteso (A) sul totale del<strong>la</strong> popo<strong>la</strong>zione in studio e<br />
in sottogruppi di essa<br />
N<br />
O = ∑Yi, A=<br />
∑r<br />
i= 1 i=<br />
1<br />
Somma di variabili casuali binomiali indipendenti<br />
con r i
Validation of the model
Concordance Statistics 0.53 0,55
Calibrazione<br />
(calibrato Unbiased ( ben<br />
1<br />
N<br />
Ricordando:<br />
1<br />
∫<br />
0<br />
N<br />
∑<br />
Y<br />
i<br />
1<br />
∫<br />
i=<br />
1 0<br />
≈ rdF()<br />
r =<br />
μ<br />
rdF( r) = r( x) dG( x)<br />
∫<br />
X
Brier Score<br />
1<br />
BS = ∑( Oi−ri)<br />
N<br />
i<br />
2<br />
(accuratezza Brier Score = Mean Squared Error (misura di<br />
Brier, 1950
Comparison of observed (O) and expected (E) cases of invasive breast cancer (Gail et<br />
al Model 2) in p<strong>la</strong>cebo arm of Breast Cancer Prevention Trial (Table 4, Costantino et al,<br />
JNCI, 1999).<br />
Age<br />
Group<br />
#<br />
women<br />
O<br />
E<br />
E/O<br />
=60<br />
1830<br />
52<br />
54.7<br />
1.1<br />
All<br />
ages<br />
5969<br />
155<br />
159.0<br />
1.0
Validazione del Model<strong>lo</strong> ai fini<br />
di decisione clinica<br />
Nel<strong>la</strong> pratica clinica è necessaria <strong>la</strong> definizione<br />
di una rego<strong>la</strong> di decisione :<br />
δ i<br />
⎧1, se ri<br />
> r*<br />
= ⎨<br />
⎩ 0, altrimenti<br />
<strong>per</strong> qualche predefinito va<strong>lo</strong>re del<strong>la</strong> soglia r*
Per una definita soglia r* <strong>la</strong> sensibilità e<br />
specificità del<strong>la</strong> rego<strong>la</strong> di decisione è :<br />
1<br />
sens(r*)= ∫ rdF( r),<br />
μ<br />
1<br />
0<br />
1<br />
r*<br />
proporzione di casi con r > r*<br />
r*<br />
1<br />
spec(r*)= ∫ (1 − rdFr ) ( )<br />
1−<br />
μ<br />
con μ= rdF( r)<br />
∫<br />
0
Sensibilità e specificita’ non sempre<br />
risultano misure appropriate<br />
Es: ma<strong>la</strong>ttia rara π=P(Y=1)=0.01<br />
Sens =0.95, Spec=0.95<br />
ppv<br />
= P( Y = 1| δ = 1) =<br />
P( δ = 1| Y = 1) π<br />
P( δ = 1| Y = 1) π + P( δ = 1| Y = 0)(1 −π)<br />
=<br />
0.95⋅0.01<br />
0.95⋅ 0.01 + (1 −0.95) ⋅0.99<br />
=<br />
0.16
Accuracy Scores<br />
Misura <strong>la</strong> bontà del<strong>la</strong> previsione del<strong>lo</strong> stato di<br />
salute/ma<strong>la</strong>ttia<br />
Misura il significato clinico del<strong>la</strong> rego<strong>la</strong> di decisione<br />
(Zweig & Campbell, 1993)<br />
ppv = P( Y = 1| δ = 1)<br />
• Va<strong>lo</strong>re Predittivo Positivo<br />
• Va<strong>lo</strong>re Predittivo Negativo<br />
npv = P( Y = 0| δ = 0)<br />
• Combinazioni pesate di entrambi<br />
Dipendono da sensitività, specificità, prevalenza del<strong>la</strong><br />
ma<strong>la</strong>ttia
Misure di Discriminazione<br />
(1-specificità • Curva ROC ( sensibilità vs<br />
• Area sottesa al<strong>la</strong> curva ROC (AUC)<br />
~Mann-Whitney-Wilcoxon Rank Sum Test<br />
~ Indice di Gini <strong>per</strong> eventi rari<br />
• Statistica di Concordanza (Rockhill et al,<br />
(2003 al, 2001; Bach et<br />
• Area parziale sottesa al<strong>la</strong> curva (Pepe,<br />
(2003 Dodd&Pepe, 2003;
Contesto teorico del<strong>la</strong> decisione<br />
Funzione di costo specifica <strong>per</strong> ogni<br />
combinazione di stato di ma<strong>la</strong>ttia e tipo<br />
di decisione:<br />
Y=0 Y=1<br />
δ=0 C 00 C 01<br />
δ=1 C 10 C 11
Funzione Nota<br />
1 r* 1<br />
EL = C11 rdF r + C 01 rdF r + C10<br />
−r dF r<br />
r* 0 r*<br />
r*<br />
+ C00<br />
(1 −r) dF( r) → min<br />
0<br />
( ) ( ) (1 ) ( )<br />
∫ ∫ ∫<br />
∫<br />
r*<br />
=<br />
C10 − C00<br />
C + C C −C<br />
10 01 − 00 11
EL C C<br />
= 11μ<br />
sens(r*) + 01μ(1 − sens(r*)) +<br />
C<br />
(1 −μ)(1 −spec(r*))+ C (1 −μ)spec(r*)<br />
10 00<br />
If sens(r*)=1 and spec(r*)=1<br />
EL = C11μ<br />
+ C 00(1 −μ)
Casi partico<strong>la</strong>ri<br />
1. C 00 =C 11 =0; C 10 =C 01<br />
overall <strong>lo</strong>ss=misc<strong>la</strong>ssification rate:<br />
r* 1<br />
EL rdFr () (1 rdFr ) ()<br />
= ∫ + ∫ −<br />
0 r*<br />
EL minimizzata <strong>per</strong> r*=0.5
Casi partico<strong>la</strong>ri<br />
.<br />
C00 = C11 = 0; C10
Lo screening mammografico può essere<br />
raccomandato in base ad un model<strong>lo</strong> di<br />
rischio?<br />
Outcome over<br />
next 5 Years<br />
No Screen<br />
Screen<br />
Y=0<br />
(cancer (no<br />
0<br />
1<br />
Y=1<br />
(cancer)<br />
100<br />
11
Ratio of Expected Loss to Minimum Expected Loss vs Sensitivity
Studi Intervento<br />
Due esiti possibili: eg Y 1 =BC<br />
Y 2 =STROKE<br />
Y 1 =0 Y 1 =1<br />
Y 2 =0 C 00 C 01<br />
Y 2 =1 C 10 C 11
<strong>Studio</strong> Intervento<br />
L’intervento non modifica i costi, modifica <strong>la</strong><br />
probabilità degli esiti congiunti<br />
Intervento no: P δ=0 (Y 1 , Y 2 )<br />
Intervento sì : P δ=1 (Y 1 , Y 2 )<br />
EL = ∑ C P Y = i Y = j<br />
i, j,<br />
k<br />
ji δ = k( 1 , 2 )
Dovremo considerare <strong>modelli</strong> di rischio<br />
congiunti <strong>per</strong> entrambi gli esiti, Y 1 , Y 2<br />
(x) Semplificazione : P i (Y 1 =1, Y 2 =1|x) = p 2i r i<br />
p 21 = p 20 k 1<br />
r 1 (x) = r (x) * k 0<br />
EL = ∑ C P Y = i Y = j → r<br />
i, j,<br />
k<br />
ki δ = k( 1 , 2 ) min *
Funzione di <strong>per</strong>dita del<strong>la</strong> decisione clinica: <strong>la</strong> donna<br />
dovrebbe prendere Tamoxifen <strong>per</strong> prevenire il tumore<br />
del<strong>la</strong> mammel<strong>la</strong>?<br />
Over next 5<br />
years<br />
No<br />
Stroke<br />
Stroke<br />
No<br />
Breast cancer<br />
0<br />
1<br />
Breast<br />
cancer<br />
1<br />
2
Ratio of Expected Loss to Expected Loss with sens=spec=1 vs Sensitivity
Conclusioni<br />
• In certi casi (screening) alta sensibilità e<br />
specificità è più importante che in altri<br />
(clinica (decisione<br />
• Utilizzare sempre <strong>modelli</strong> ben calibrati<br />
• Gli aspetti discriminatori dei <strong>modelli</strong> a volte<br />
sono meno importanti dell’accuracy e del<strong>la</strong><br />
calibrazione
I - Stasi<br />
II - OrdineIII - Caos IV - Complessità<br />
I - Stasi II - Ordine III - Caos IV - Complessità
E’ molto difficile prevedere,<br />
specialmente il futuro.<br />
(Bohr (Niels