24.05.2013 Views

4. Linkage

4. Linkage

4. Linkage

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

BASI GENETICHE DELLE MALATTIE<br />

malattie mendeliane o monogeniche:<br />

- una singola mutazione detemina la malattia<br />

- la malattia segrega nelle famiglie secondo una ereditarietà<br />

mendeliana (autosomica dominante o recessiva, X-linked)<br />

geni causativi<br />

malattie complesse o multifattoriali:<br />

- eziologia complessa: determinate da diversi fattori genetici e<br />

ambientali e dalle loro interazioni<br />

- la malattia non segrega nelle famiglie secondo una ereditarietà<br />

mendeliana<br />

geni di suscettibilità<br />

eziologia genetica:<br />

- modello oligogenico<br />

- modello poligenico


ANALISI DI LINKAGE<br />

utilizzata per identificare la posizione cromosomica<br />

di un gene coinvolto in una data malattia<br />

CLONAGGIO POSIZIONALE - identificazione di geni<br />

dalla loro localizzazione genomica senza<br />

conoscerne le basi biochimiche e le loro funzioni


l’analisi di linkage è stata applicata con<br />

successo nella ricerca di geni<br />

mendeliani, ma ha dato risultati non<br />

soddisfacenti nello studio delle malattie<br />

complesse:<br />

→ eccessiva semplificazione della reale<br />

complessità eziologica<br />

modelli più complessi<br />

→ troppa poca attenzione posta allo<br />

STUDY DESIGN


L’analisi statistica (linkage e linkage<br />

disequilibrium) si basa sullo studio della<br />

correlazione tra marcatori cromosomici e fenotipo<br />

al fine di localizzare (relativamente alla posizione<br />

cromosomica dei marcatori) il/i gene/i di<br />

suscettibilità (GDS) coinvolto/i nella eziologia del<br />

fenotipo studiato<br />

MARCATORE<br />

analisi<br />

statistica<br />

FENOTIPO<br />

GDS<br />

ALTRI GENI<br />

AMBIENTE


study design<br />

• conoscenza della malattia:<br />

– prevalenza nella popolazione; ricorrenza famigliare;<br />

fattori di rischio ambientali;<br />

• definizione degli “affetti”:<br />

– sottogruppi più omogenei; insorgenza precoce;<br />

maggiore severità;<br />

• qualità e densità dei marker:<br />

– microsatelliti, SNPs, risoluzione della mappa genetica;<br />

• popolazione e campionamento:<br />

– popolazioni isolate (complessità eziologica ridotta)<br />

– famiglie con più affetti; sib-pair; famiglie random;<br />

• procedure analitiche:<br />

– linkage model-based o model-free; GWS; regioni/geni<br />

candidati;


misura della componente genetica<br />

– studi sui gemelli:<br />

concordanza tra gemelli MZ e DZ:<br />

MZ >> DZ → componente genetica<br />

MZ ≈ DZ → componente ambientale<br />

– rischio relativo<br />

- rischio di ricorrenza nei famigliari di grado R rispetto<br />

alla prevalenza della malattia nella popolazione:<br />

λ R =P(D|R affetto)/P(D)<br />

misura il rischio complessivo dei fattori genetici e “famigliari”<br />

modello additivo: λ= λ 1 + λ 2 +…+ λ n<br />

modello moltiplicativo: λ= λ 1 × λ 2 ×…× λ n<br />

– analisi di segregazione


DATI:<br />

ANALISI DI LINKAGE<br />

– una o più famiglie dove segrega la malattia; membri della<br />

famiglia genotipizzati per marker polimorfici (generalmente<br />

STRs)<br />

METODI:<br />

– model-based o parametrica (classico LOD score):<br />

segregazione congiunta del locus malattia (non noto, ma<br />

determinato probabilisticamente dal fenotipo osservato) e<br />

di uno o più loci di marker cromosomici<br />

– model-free o non-parametrica (allele- o IBD-sharing):<br />

condivisione IBD per marker cromosomici negli affetti<br />

delle famiglie<br />

STRATEGIE:<br />

– genome-wide screen (GWS)<br />

– regioni/geni candidati


L’analisi di linkage si basa sul fenomeno<br />

della RICOMBINAZIONE<br />

durante la meiosi i cromosomi<br />

omologhi si appaiano e avviene il<br />

fenomeno del crossing-over<br />

più i loci sono vicini, meno è probabile<br />

che avvenga un crossing-over tra loro<br />

gli alleli di loci vicini hanno una<br />

probabilità maggiore di segregare<br />

insieme rispetto agli alleli di loci più<br />

lontani


ANALISI DI LINKAGE MODEL-BASED<br />

SCOPO: determinare se 2 loci segregano<br />

indipendentemente nelle famiglie (legge di Mendel<br />

dell’assortimento indipendente)<br />

frequenza di ricombinazione θ:<br />

frequenza di un numero dispari di ricombinazioni tra<br />

2 loci<br />

2 loci<br />

segregazione indipendente: θ=½<br />

segregazione non indipendente: θ


_<br />

L’analisi di linkage si basa sul fenomeno<br />

della RICOMBINAZIONE<br />

durante la meiosi i cromosomi<br />

omologhi si appaiano e avviene il<br />

fenomeno del crossing-over<br />

più i loci sono vicini, meno è probabile<br />

che avvenga un crossing-over tra loro<br />

gli alleli di loci vicini hanno una<br />

probabilità maggiore di segregare<br />

insieme rispetto agli alleli di loci più<br />

lontani


NR<br />

corrispondenza 1-1 fenotipo-genotipo<br />

(incrocio con fase nota)<br />

+ - + +<br />

1 2 3 3<br />

- + + +<br />

2 3 1 1<br />

- + + + - + + + - +<br />

2 1 3 1 2 1 3 1 3 1<br />

NR NR NR R<br />

funzione di verosimiglianza – LIKELIHOOD<br />

L (θ)= θ R (1- θ) NR<br />

affetti<br />

non affetti<br />

+ allele wild-type<br />

- gene-malattia<br />

si segue la segregazione<br />

congiunta del gene<br />

malattia e del marker nella<br />

famiglia → si contano i<br />

ricombinanti e i non<br />

ricombinanti


NR<br />

corrispondenza 1-1 fenotipo-genotipo<br />

(incrocio con fase nota)<br />

+ - + +<br />

1 2 3 3<br />

- + + +<br />

2 3 1 1<br />

- + + - + + + - +<br />

2 1 3 1 2 1 3 1 3 1<br />

+<br />

NR NR NR R<br />

funzione di verosimiglianza – LIKELIHOOD<br />

L (θ)= θ R (1- θ) NR<br />

affetti<br />

non affetti<br />

+ allele wild-type<br />

- gene-malattia<br />

si segue la segregazione<br />

congiunta del gene<br />

malattia e del marker nella<br />

famiglia → si contano i<br />

ricombinanti e i non<br />

ricombinanti


corrispondenza 1-1 fenotipo-genotipo<br />

(incrocio con fase NON nota)<br />

fase I: 2 - / 3 +<br />

fase II: 3 - / 2 +<br />

NR<br />

- + + +<br />

2 3 1 1<br />

- + + + - + + + - +<br />

2 1 3 1 2 1 3 1 3 1<br />

NR NR NR R<br />

R R R R NR<br />

funzione di verosimiglianza – LIKELIHOOD<br />

fase I: L I(θ) = θ (1- θ) 4<br />

fase II: L II(θ) = θ 4 (1- θ)<br />

fase I:<br />

fase II:<br />

L(θ)= [ L I(θ) + L II(θ) ] / 2


corrispondenza fenotipo-genotipo: modello genetico<br />

SML (single major locus)<br />

frequenza genica: P(D)=p, P(d)=1-p=q<br />

penetranze: f DD , f Dd , f dd<br />

DD<br />

fDD 1-f<br />

fDd DD<br />

fdd 1-fDd genotipo fenotipo<br />

Dd<br />

dd<br />

1-f dd<br />

affetto<br />

non affetto<br />

funzione di verosimiglianza – LIKELIHOOD<br />

L(D| θ, f DD, f Dd, f dd, p)


LOD SCORE (Morton, 1955)<br />

likelihood ratio (LR) = rapporto della funzione di<br />

verosimiglianza per θ < ½ rispetto alla funzione di<br />

verosimiglianza per θ = ½<br />

il LOD score è il log 10 del LR<br />

Z(θ) = log 10 [ L(θ) / L(θ=½) ]<br />

Z(θ) ≥ 3 linkage significativo<br />

Z(θ) < -2 linkage è escluso per ≤ θ<br />

la stima di massima verosimiglianza di θ è il valore<br />

di θ che massimizza Z(θ)<br />

i LOD score si sommano per le diverse famiglie


ANALISI DI LINKAGE model-based per le<br />

MC<br />

• modello genetico (SML) ≠ modello reale<br />

potere ridotto; stima non corretta di θ<br />

(con modelli meno deterministici non aumenta la<br />

probabilità dei falsi positivi)<br />

– definire un modello genetico vicino a quello reale<br />

– approccio affected-only<br />

– modello dominante/modello recessivo, penetranza<br />

50%<br />

– Maximized Maximum LOD Score (MMLS)<br />

MFLINK<br />

– PSEUDOMARKER<br />

• eterogeneità genetica:<br />

– stimare la proporzione delle famiglie (α) in linkage<br />

HOMOG; Genehunter<br />

– selezionare sottogruppi omogenei di famiglie


• non richiede di definire un modello genetico<br />

• i soggetti affetti di una stessa famiglia condividono lo<br />

stesso GDS → anche la regione intorno al locus del GDS<br />

sarà condivisa<br />

• si basa sulla condivisione IBD (IBD-sharing) degli alleli<br />

dei marker tra soggetti affetti di una stessa famiglia:<br />

IBD: identical-by-descent ⊂ IBS: identical-by-state<br />

numero di alleli condivisi IBD (IBS-sharing meno potente)<br />

• la condivisione IBD osservata si discosta dalla condivisone<br />

IBD attesa in base al loro grado di parentela?<br />

• campione:<br />

ANALISI DI LINKAGE MODEL-FREE<br />

– AFFECTED SIB-PAIR<br />

– AFFECTED RELATIVE MEMBER


1 2 3 4<br />

1 3 1 4<br />

allele 1 è IBD<br />

(e IBS)<br />

1 2 1 3<br />

1 3 1 2<br />

allele 1 è IBS<br />

(no IBD)<br />

IBD vs IBS<br />

1 1 3 4<br />

1 3 1 4<br />

allele 1 è IBS<br />

(IBD ?)<br />

3 4<br />

1 3 1 4<br />

allele 1 è IBS<br />

(IBD ?)


AFFECTED SIB-PAIR (ASP)<br />

Marker unlinked<br />

Marker linked<br />

IBD=<br />

2<br />

. . .<br />

IBD=<br />

1<br />

25% 50% 25%<br />

40% 55% 5%<br />

TEST STATISTICO: ASP condividono più alleli al marker di quanto<br />

atteso<br />

il marker è in linkage con il locus del GDS<br />

IBD=<br />

0


AA<br />

AA<br />

AA<br />

AA 0<br />

IBD sharing tra 2 fratelli<br />

AA AA AA AA<br />

2<br />

1<br />

1<br />

1<br />

2<br />

0<br />

1<br />

1<br />

0<br />

2<br />

1<br />

P(IBD=0) = 4 / 16 = 0.25<br />

P(IBD=1) = 8 / 16 = 0.50<br />

P(IBD=2) = 4 / 16 = 0.25<br />

0<br />

1<br />

1<br />

2


“counting methods” per ASP<br />

H 0 : (z 0 ,z 1 ,z 2 )=(¼, ½, ¼)<br />

se è possibile contare il numero di ASP che condividono 0,1 o<br />

2 alleli IBD:<br />

• χ 2 test (goodness-of-fit):<br />

χ 2 = Σ [ (O-E) 2 / E ] (2df)<br />

• mean test:<br />

confronto della proporzione media degli alleli condivisi IBD<br />

(π = z 2 + ½ z 1 ) con la proporzione media attesa (π = ½)<br />

• proportion test:<br />

confronto del numero degli ASP che condividono 2 alleli IBD<br />

(z 2 ) con il numero atteso (z 2 = ¼)


“likelihood-based method” per ASP<br />

maximum likelihood statistic (MLS):<br />

MLS = log 10 [ L(D|z 0 ,z 1 ,z 2 ) / L(D|¼,½,¼) ]<br />

→ (z 0 ,z 1 ,z 2 ) stime di massima verosimiglianza<br />

“possible triangle”: z 0 >0, z 1 =2z 0<br />

Risch (1990): parametrizzazione {λ s ,λ o ,θ} o {λ s ,λ o ,x}<br />

x=posizione cromosomica del GDS<br />

z 0 ,z 1 ,z 2 possono essere espresse in termini di λ R<br />

(single locus o modello moltiplicativo)<br />

z 0 = 1/ (4λ s ) z 1 = λ 0 / (2λ s ) z 2 = 1 - (2 λ 0 +1) / (4 λ s )


programmi principali per ASP<br />

GAS: IBD e IBS sharing test; χ 2 goodness-of-fit; mean test; MLS<br />

ma ignora le famiglie in cui entrambi i genitori non sono<br />

genotipizzati<br />

SIBPAL [SAGE]: mean test; se l’IBD status non è certo, considera<br />

tutte le possibili combinazioni genotipiche dei genitori (score<br />

IBD medi pesati sulle loro probabilità)<br />

SIBPAIR: test equivalente al mean test (utilizza un’analisi modelbased<br />

con modello recessivo a penetranza completa); utilizza<br />

anche i fratelli non affetti<br />

MAPMAKER/SIBS: MLS tramite analisi multipoint (utilizza<br />

l’algoritmo di Lander-Green); exclusion mapping (dato λ R );<br />

information-content mapping; multiple ASP [Kruglyak &<br />

Lander (1995)]<br />

Altri: ASPEX, SPLINK, ERPA, SimIBD,..


AFFECTED RELATIVE MEMBER<br />

• la condivisione IBD attesa negli affetti della<br />

famiglia si calcola in base al loro grado di<br />

parentela<br />

• la condivisione IBD osservata nei soggetti affetti<br />

della famiglia si calcola in base agli alleli<br />

presenti nella famiglia considerando tutte le<br />

possibili combinazioni genotipiche<br />

→ distribuzione IBD


1<br />

1<br />

1<br />

IBD atteso<br />

X Y<br />

2 3<br />

2<br />

via X : 5 meiosi<br />

via Y : 5 meiosi<br />

IBD atteso [1,2] = (½) 5 + (½) 5 = 0.0625<br />

3<br />

4<br />

4<br />

5<br />

5<br />

2


nonparametric linkage score (NPL)<br />

Kruglyak et al. (1996)<br />

Z = [S (s)-µ] / σ<br />

S = score che misura l’IBD-sharing alla posizione s<br />

µ e σ sono la media e la deviazione standard di S<br />

nell’ipotesi nulla<br />

NPL = Σγ i Z i i=1,…,n (# famiglie) γ i =1/√n<br />

• S pairs considera l’IBD-sharing tra tutte le coppie di<br />

affetti<br />

• S all considera l’IBD-sharing tra tutti gli affetti<br />

Kong & Cox (1997)<br />

maximum likelihood method – LOD score<br />

δ misura il grado di allele-sharing tra gli affetti<br />

(δ=0 nell’ipotesi nulla; δ>0 eccesso di allelesharing)


PROGRAMMI PRINCIPALI<br />

PER L’ANALISI DI LINKAGE NELLE FAMIGLIE<br />

Algoritmo Programma Soluzione Limitazioni<br />

Elston-Stewart <strong>Linkage</strong>, Fastlink, Vitesse esatta<br />

variabile: ~8<br />

marker<br />

Lander-Green<br />

Markov chain<br />

Monte Carlo<br />

Algoritmo<br />

GeneHunter, Genehunterplus,<br />

Allegro, Merlin<br />

esatta<br />

SimWalk2 approssimata<br />

aumento del tempo di calcolo con:<br />

~20 soggetti:<br />

2n - f < 20-30<br />

molti soggetti<br />

(>200)/molti<br />

marker (>30)<br />

soggetti markers dati mancanti<br />

Elston-Stewart lineare esponenziale severo<br />

Lander-Green esponenziale lineare modesto<br />

Markov chain<br />

Monte Carlo<br />

lineare lineare ridotto<br />

Nota: MEGA2 programma di utility per convertire i files


ulteriori complicazioni nell’analisi di linkage<br />

• errori nella struttura famigliare<br />

• errori diagnostici (errata classificazione degli<br />

affetti e dei non affetti)<br />

• errori nei genotipi<br />

• frequenze alleliche dei marker non corrette<br />

(nelle famiglie con soggetti non genotipizzati)


MERLIN<br />

Timings for Simultaneous <strong>Linkage</strong> Analysis, Haplotyping and IBD Estimation<br />

Grandparents Genotyped<br />

A (x1000) B C D<br />

Genehunter<br />

Exact 36s 59m44s - -<br />

Allegro<br />

Exact 17s 2m06s 4h29m02s* -<br />

Merlin<br />

Exact 10s 44s 42m37s -<br />

Merlin Approximations<br />

2 recombinants 13s 2s 5s 32s<br />

Simulations generated a map of 50 microsatellite markers at 1 cM spacing. The expected number<br />

of recombinants between consecutive markers is 0.4 (pedigree D).<br />

All timings are for 700 Mhz Pentium computer, using 2 GB of RAM.<br />

* Also using 20 GB of RAID storage for disk swapping


analisi quantitativa - QTL<br />

tratti continui / misurabili<br />

• effetto soglia (malattia):<br />

– pressione sanguigna → ipertensione<br />

– livelli di tolleranza al glucosio → diabete<br />

• fattori di rischio:<br />

– livelli di colesterolo → malattie cardiache<br />

V T = V G + V E + V G×E<br />

V G = V A +V D +V I<br />

ereditabilità (h 2 ) = V A / V T


Sib-pair<br />

Haseman-Elston (1972)<br />

fenotipi x 1 e x 2<br />

• regressione di (x 1 -x 2 ) 2 su π (proporzione degli alleli IBD che<br />

la coppia condivide)<br />

(x 1 -x 2 ) 2 = a + b π<br />

H0: b = 0 H1: b < 0<br />

• new Haseman-Elston regression (Elston et al. 2000):<br />

→ SIBPAL2 [SAGE]<br />

extreme discordant SP → più potere


modello: y = µ + Σ j q j + e<br />

variance component (VC)<br />

partizione della varianza → partizione della<br />

covarianza<br />

cov(y 1,y 2) = π iσ 2 qi + 2φσ 2 g<br />

Likelihood → LRT<br />

H 0: σ 2 qi= 0 LOD= log 10[L(σ 2 qi) / L(σ 2 qi=0)]<br />

H 1: σ 2 qi> 0<br />

y i fenotipo<br />

q j effetto dell’i-simo QTL<br />

e effetto ambientale<br />

π i =k 1i /2+k 2i IBD all’i-mo QTL<br />

σ 2 qi<br />

varianza dell’i-mo QTL<br />

φ coefficiente di kinship<br />

σ2 g varianza genetica<br />

additiva


QTL-linkage tramite VC<br />

PRO:<br />

• famiglie di qualunque dimensione<br />

• viene utilizzata tutta l’informazione disponibile: potere<br />

dell’analisi elevato (dipende dall’ereditabilità del tratto)<br />

• si possono considerare le covariate<br />

CONTRO:<br />

• si assume una distribuzione normale (multivariata)<br />

→ aumento della probabilità di falsi positivi<br />

• campione random, non selezionato<br />

• potere ridotto e localizazione non precisa per QTL minori<br />

PROGRAMMI:<br />

SOLAR, Genehunter, MERLIN


POTERE dell’ANALISI di LINKAGE<br />

il campione è sufficientemente grande/informativo per<br />

identificare il linkage con un GDS quando il linkage esiste?<br />

il potere dell’analisi dipende dal modello genetico che<br />

sottende alla malattia / al tratto studiati …<br />

… non è possibile valutarlo accuratamente per le MC<br />

SML, modello genetico :<br />

si valuta il potere in base al numero di meiosi<br />

informative che si hanno assumendo un dato<br />

modello genetico<br />

analisi di simulazione:<br />

SIMLINK o SLINK (FastSlink)<br />

λ R può essere utilizzato per stimare il potere<br />

per aumentare il potere: più attenzione allo study design


livello di significatività in un GWS<br />

GWS: test di linkage viene fatto su numerosi marker distribuiti<br />

sull’intero genoma<br />

test multipli → aumenta l’errore tipo I (falsi positivi)<br />

correzione del livello di significatività nominale<br />

Lander & Kruglyak (1995) (ASP)<br />

P-value nominale P-value GWS MLS linkage<br />

0.00002 0.05 3.6 significativo<br />

troppo conservativo?<br />

Attenzione ai falsi negativi!

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!