modelli predittivi - Centro per lo Studio e la Prevenzione Oncologica ...

I LUNEDI’ SENOLOGICI 

Incontri multidisciplinari di senologia 

Firenze 9 Marzo 2009 

MODELLI PREDITTIVI 

Decarli Adriano - Istituto di Statistica Medica e Biometria “Giulio A. Maccacaro” - Università di Milano 

Fondazione IRCCS-INT Milano

Scopo: Classificazione 

Chi ha bisogno di cosa? 

Classificazione del Rischio 

Intervento 

Medio 

Standard : 

raccomandazioni 

Storia, 

stili di vita 

Moderato 

(”‏Famigliare‏“)‏ 

Prevenzione personalizzata: 

Raccomandazioni 

Alto/Genetico 

Test genetici 

Con prevenzione personalizzata

EZIOLOGIA 

• ~5-10% hanno una forte componente 

ereditaria 

• ~15-20% sono famigliari/multifattoriali 

• ~70-75% si classificano sporadici

Tipologie di modelli 

Modelli di predizione del rischio di malattia. 

Qual è la probabilità di sviluppare il cancro al seno? 

Modelli di predizione della suscettibilità genetica. 

Qual è la probabilità di trovare una mutazione nei geni 

BRCA1 e BRCA2? 

COMPLEMENTARI

BRCA1/2 Mutation Incidence 

• 1 in 800 women in the general population 

• 5-10% of all women with breast CA 

• 18% of women with breast CA

Screening for “Familial Cancer” 

• Help your patients collect appropriate 

Family History Details: 

– Type of primary cancer(s) in each relative 

– Age of disease onset in each relative 

– Cancer status in 1 st and 2 nd degree 

relatives 

– Cancer status in both sides of the family 

– Other medical findings – benign tumors, etc.

Claus Model 

• Calculates risk of breast CA to age 80 based on: 

– Age of onset of breast cancer in 1 st and 2 nd degree 

relatives, including paternal 

• Limitations: 

– May underestimate risk in families with 3 or more 

affected members; 

Claus EB et al. Cancer 73:643-651 (1994)

Modelli Predittivi 

• Definizione : Un procedimento che utilizza i dati 

e la conoscenza disponibili per identificare 

persone che risultano a “rischio” (probabilmente 

necessiteranno di un utilizzo dei servizi sanitari 

superiori alla media nel futuro ); 

• Informazione relativa al tempo t è utilizzata per 

predire t+k


• Siamo “inondati” di dati e cerchiamo di 

utilizzarli in modo sistematico per 

migliorare efficacia ed efficienza. 

• Siamo carenti di risorse e convinti che 

intervenire prima sia meglio che mettere in 

“lista d’attesa poi”


• In tempi di inflazione medica è 

comprensibile focalizzarsi su soggetti a 

potenziale alto rischio. 

• La gestione dei ‘casi’ e la gestione della 

‘malattia’ sono ubiquitari. MP potrebbero 

aiutare a finalizzare i programmi.

Applicazioni di un modello 

predittivo di rischio 

• Pianificazione di studi di intervento 

• Definizione di indici beneficio/rischio 

• Stima costi della malattia a livello 

popolazione 

• Identificazione di soggetti a rischio 

• Disegno di strategie preventive a livello di 

popolazione 

• Ausilio alla decisione clinica (genetic(‏counseling

Modelli Predittivi di Rischio 

• Input : 

– Età e Fattori di Rischio 

– Periodo a rischio 

• Output : 

– Stima individuale del Rischio assoluto in un 

definito intervallo di tempo (es: prossimi 5 

anni).

Gail Model 

• Calculates 5 yr and lifetime risk (to 90 yrs) of 

breast cancer based on multiple criteria 

• Limitations: age of onset, 2 nd degree relatives, 

paternal history, ovarian cancer, ethnicity not 

included in risk analysis 

http://bcra.nci.nih.gov/brc/start.htm 

Gail MH: J Natl Cancer Inst (1989); 81; 24; 1979-1886.

Rischio Assoluto di cancro 

nell’intervallo [a, a+τ] 

r x a P T a causa c T a x 

( ; , τ ) = ( ≤ + τ, = 1| > ; ) 

a+ τ 

⎡ t 

⎤ 

= ∫ (, )exp ⎢− ∫{ ( , ) + ( )} 

1 1 2 

a 

h t x h u x h u du dt 

h1 

t x 

h2 

t 

⎢ 

⎣ 

a 

( , ) - incidenza del tumore all'età t 

( ) - mortalità competitiva 

x - fattori di rischio/protezione individuali 

⎥ 

⎥ 

⎦

Rischio Assoluto individuale di 

Cancro da Studi di Coorte 

• Cox proportional hazards 

h (t;x) = h (t)exp( βx) 

1 10 

Benichou and Gail, Biometrics 1990 

Anderson, Borgan, Gill, Keiding 1993 

• Cumulative incidence regression 

g{Prob(event1at T ≤ t;x)}=h 

0 

(t) + β x 

Fine and Gray, JASA 1999

Campionamento da una coorte : 

Stima di Rischi Relativi 

Stima di Rischi Cumulativi 

(‏Cox (Modello di 

• Disegno Caso-coorte 

– Prentice and Self, Annals Stat, 1988 

• Disegno caso-controllo nested 

– Borgan, Goldstein, Langholz, Annals 

Stat, 1995

Studi di Coorte: Problemi 

• Non rappresentativa per la stima di RA 

• Lungo periodo di tempo 

• Non rappresentativa per quanto si 

riferisce alle cause competitive di 

morte 

• Mancanza di dettagli rispetto alle 

variabili di interesse.

Uso combinato di dati da studi 

Caso-Controllo e Dati derivati da 

Registri Tumore 

Studio Caso - Controllo 

Odds Ratio, r(t) 

Rischio Attribuibile, AR(t) 

Registro 

Hazard Età specifici 

h(t) 

* 

1 

h (t)={1-AR(t)}h 

* 

(t) 

1 1 

Cornfield, JNCI, 1951; Gail et al, JNCI, 1989; 

Anderson et al, NSABP, 1992

Vantaggi dell’approccio 

Caso-Controllo/Registro 

• Dettagliate informazioni sulle covariate 

• Relativamente breve durata 

• Tassi età-specifici derivati dai registri 

più precisi e rappresentativi di quelli 

derivati da una coorte 

• Più studi caso-controllo possono 

essere combinati per ottenere le stime 

dei rischi relativi.

Svantaggi 

• Recall bias 

• Casi e controlli devono essere 

rappresentativi della popolazione per 

stimare AR 

• Registri di popolazione non sono 

disponibili per molte patologie di 

interesse (es: stroke, infarto del 

(‏miocardio,etc

Validazione del modello 

• OR e RR 

– Dati da studi Caso-controllo o di Coorte 

(‏concordanza‏)‏ • Area curva ROC 

– Casi e non Casi appaiati per età 

• Calibrazione di AR (i.e. capacità del modello 

di prevedere il numero di eventi osservati in 

(‏popolazione diversi sottogruppi della 

– dati relativi a grandi coorti

Valutazione dei modelli di rischio 

• Capacità predittiva a livello di gruppi di soggetti: 

Calibrazione 

• Capacità di separare i soggetti che avranno la 

diagnosi di malattia: 

– a livello di gruppo : Accuratezza (accuracy 

(‏scores 

– a livello dei singoli individui : Capacità 

Discriminatoria ( Discriminatory Accuracy)

Validazione 

Popolazione di N isoggetti seguita per un 

periodo di tempo τ 

Sia: 

Yi 

⎧1, se ith soggetto ha la diaagnosi in 

0, altrimenti 

τ 

= ⎨ 

⎩ 

; 

r 

i 

= r( xi 

a) = rischio assoluto del soggetto ith 

con valori delle covariate 

x 

i, 

ed età a

Calibrazione del Modello 

Bontà del modello basata sul critero del confronto 

tra il numero di eventi osservati (O) e quello 

atteso (A) sul totale della popolazione in studio e 

in sottogruppi di essa 

N 

O = ∑Yi, A= 

∑r 

i= 1 i= 

1 

Somma di variabili casuali binomiali indipendenti 

con r i

Validation of the model

Concordance Statistics 0.53 0,55

Calibrazione 

(‏calibrato Unbiased ( ben 

1 

N 

Ricordando: 

1 

∫ 

0 

N 

∑ 

Y 

i 

1 

∫ 

i= 

1 0 

≈ rdF() 

r = 

μ 

rdF( r) = r( x) dG( x) 

∫ 

X

Brier Score 

1 

BS = ∑( Oi−ri) 

N 

i 

2 

(‏accuratezza Brier Score = Mean Squared Error (misura di 

Brier, 1950

Comparison of observed (O) and expected (E) cases of invasive breast cancer (Gail et 

al Model 2) in placebo arm of Breast Cancer Prevention Trial (Table 4, Costantino et al, 

JNCI, 1999). 

Age 

Group 

# 

women 

O 

E 

E/O 

=60 

1830 

52 

54.7 

1.1 

All 

ages 

5969 

155 

159.0 

1.0

Validazione del Modello ai fini 

di decisione clinica 

Nella pratica clinica è necessaria la definizione 

di una regola di decisione : 

δ i 

⎧1, se ri 

> r* 

= ⎨ 

⎩ 0, altrimenti 

per qualche predefinito valore della soglia r*

Per una definita soglia r* la sensibilità e 

specificità della regola di decisione è : 

1 

sens(r*)= ∫ rdF( r), 

μ 

1 

0 

1 

r* 

proporzione di casi con r > r* 

r* 

1 

spec(r*)= ∫ (1 − rdFr ) ( ) 

1− 

μ 

con μ= rdF( r) 

∫ 

0

Sensibilità e specificita’ non sempre 

risultano misure appropriate 

Es: malattia rara π=P(Y=1)=0.01 

Sens =0.95, Spec=0.95 

ppv 

= P( Y = 1| δ = 1) = 

P( δ = 1| Y = 1) π 

P( δ = 1| Y = 1) π + P( δ = 1| Y = 0)(1 −π) 

= 

0.95⋅0.01 

0.95⋅ 0.01 + (1 −0.95) ⋅0.99 

= 

0.16

Accuracy Scores 

Misura la bontà della previsione dello stato di 

salute/malattia 

Misura il significato clinico della regola di decisione 

(Zweig & Campbell, 1993) 

ppv = P( Y = 1| δ = 1) 

• Valore Predittivo Positivo 

• Valore Predittivo Negativo 

npv = P( Y = 0| δ = 0) 

• Combinazioni pesate di entrambi 

Dipendono da sensitività, specificità, prevalenza della 

malattia

Misure di Discriminazione 

(‏‎1-specificità • Curva ROC ( sensibilità vs 

• Area sottesa alla curva ROC (AUC) 

~Mann-Whitney-Wilcoxon Rank Sum Test 

~ Indice di Gini per eventi rari 

• Statistica di Concordanza (Rockhill et al, 

(‏‎2003‎ al, 2001; Bach et 

• Area parziale sottesa alla curva (Pepe, 

(‏‎2003‎ Dodd&Pepe, 2003;

Contesto teorico della decisione 

Funzione di costo specifica per ogni 

combinazione di stato di malattia e tipo 

di decisione: 

Y=0 Y=1 

δ=0 C 00 C 01 

δ=1 C 10 C 11

Funzione Nota 

1 r* 1 

EL = C11 rdF r + C 01 rdF r + C10 

−r dF r 

r* 0 r* 

r* 

+ C00 

(1 −r) dF( r) → min 

0 

( ) ( ) (1 ) ( ) 

∫ ∫ ∫ 

∫ 

r* 

= 

C10 − C00 

C + C C −C 

10 01 − 00 11

EL C C 

= 11μ 

sens(r*) + 01μ(1 − sens(r*)) + 

C 

(1 −μ)(1 −spec(r*))+ C (1 −μ)spec(r*) 

10 00 

If sens(r*)=1 and spec(r*)=1 

EL = C11μ 

+ C 00(1 −μ)

Casi particolari 

1. C 00 =C 11 =0; C 10 =C 01 

overall loss=misclassification rate: 

r* 1 

EL rdFr () (1 rdFr ) () 

= ∫ + ∫ − 

0 r* 

EL minimizzata per r*=0.5

Casi particolari 

. 

C00 = C11 = 0; C10

Lo screening mammografico può essere 

raccomandato in base ad un modello di 

rischio? 

Outcome over 

next 5 Years 

No Screen 

Screen 

Y=0 

(‏cancer (no 

0 

1 

Y=1 

(‏cancer‏)‏ 

100 

11

Ratio of Expected Loss to Minimum Expected Loss vs Sensitivity

Studi Intervento 

Due esiti possibili: eg Y 1 =BC 

Y 2 =STROKE 

Y 1 =0 Y 1 =1 

Y 2 =0 C 00 C 01 

Y 2 =1 C 10 C 11

Studio Intervento 

L’intervento non modifica i costi, modifica la 

probabilità degli esiti congiunti 

Intervento no: P δ=0 (Y 1 , Y 2 ) 

Intervento sì : P δ=1 (Y 1 , Y 2 ) 

EL = ∑ C P Y = i Y = j 

i, j, 

k 

ji δ = k( 1 , 2 )

Dovremo considerare modelli di rischio 

congiunti per entrambi gli esiti, Y 1 , Y 2 

(‏x‏)‏ Semplificazione : P i (Y 1 =1, Y 2 =1|x) = p 2i r i 

p 21 = p 20 k 1 

r 1 (x) = r (x) * k 0 

EL = ∑ C P Y = i Y = j → r 

i, j, 

k 

ki δ = k( 1 , 2 ) min *

Funzione di perdita della decisione clinica: la donna 

dovrebbe prendere Tamoxifen per prevenire il tumore 

della mammella? 

Over next 5 

years 

No 

Stroke 

Stroke 

No 

Breast cancer 

0 

1 

Breast 

cancer 

1 

2

Ratio of Expected Loss to Expected Loss with sens=spec=1 vs Sensitivity

Conclusioni 

• In certi casi (screening) alta sensibilità e 

specificità è più importante che in altri 

(‏clinica (decisione 

• Utilizzare sempre modelli ben calibrati 

• Gli aspetti discriminatori dei modelli a volte 

sono meno importanti dell’accuracy e della 

calibrazione

I - Stasi 

II - OrdineIII - Caos IV - Complessità 

I - Stasi II - Ordine III - Caos IV - Complessità

E’ molto difficile prevedere, 

specialmente il futuro. 

(‏Bohr (Niels

modelli predittivi - Centro per lo Studio e la Prevenzione Oncologica ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?