17.09.2013 Views

Undersøgelse af ikke lineære sammenhænge mellem codon ...

Undersøgelse af ikke lineære sammenhænge mellem codon ...

Undersøgelse af ikke lineære sammenhænge mellem codon ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Undersøgelse</strong> <strong>af</strong> <strong>ikke</strong> <strong>lineære</strong> <strong>sammenhænge</strong> <strong>mellem</strong><br />

<strong>codon</strong> forekomst og udtryk<br />

Uddannelsesinstitution:<br />

DTU, Anker Engelundsvej 1, 2800 Kgs. Lyngby<br />

Vejleder:<br />

Lasse Engbo Christiansen, Institut for Matematisk Modellering (DTU IMM) (lec@imm.dtu.dk)<br />

Vejleder(ekstern)<br />

Carsten Friis, Institut for Systembiologi(DTU Biosys)(carsten@cbs.dk)<br />

Tidsrummet for projekt:<br />

E08 mandag d. 04-02-08 til E08 fredag d. 27-06-08<br />

<strong>af</strong><br />

Martin Høegh Vangkilde, s042313<br />

________________________<br />

1


Indholdsfortegnelse<br />

Indledning ............................................................................................................................................3<br />

Problemformulering.............................................................................................................................3<br />

Baggrund..............................................................................................................................................4<br />

Codon Adaptation Index ..................................................................................................................4<br />

Data ..................................................................................................................................................5<br />

Sekvensdata..................................................................................................................................5<br />

Expressionsdata............................................................................................................................5<br />

Metoder ..............................................................................................................................................10<br />

Beregning <strong>af</strong> CAI ud fra Li og Sharps w .......................................................................................10<br />

Beregning <strong>af</strong> optimal CAI..............................................................................................................11<br />

Di<strong>codon</strong> CAI..................................................................................................................................12<br />

Resultater ...........................................................................................................................................13<br />

Li og Sharps CAI ...........................................................................................................................13<br />

Optimal CAI...................................................................................................................................14<br />

Di<strong>codon</strong> CAI..................................................................................................................................17<br />

Diskussion..........................................................................................................................................19<br />

Konklusion.........................................................................................................................................21<br />

Kilder: ................................................................................................................................................22<br />

Appendiks ..........................................................................................................................................24<br />

2


Indledning<br />

Protein kodes <strong>af</strong> RNA, der igen kodes <strong>af</strong> DNA. DNA sekvensen kan opdeles i <strong>codon</strong>s, der hver<br />

koder for en aminosyre. Der er 64 forskellige <strong>codon</strong>s, hvor<strong>af</strong> 3 er stop<strong>codon</strong>s, der <strong>ikke</strong> koder for en<br />

aminosyre. De resterende 61 <strong>codon</strong>s koder 20 forskellige aminosyre. Da der for nogle aminosyrer er<br />

6 mulige <strong>codon</strong>s, er det interessant at undersøge, om der er nogle <strong>codon</strong>s der optræder hyppigere<br />

end andre. Til at belyse dette benyttes Relative Synonymous Codon Usage(RSCU), der fortæller<br />

hvor tit et <strong>codon</strong>s optræder, i forhold til de andre der koder for den samme aminosyre. Der laves en<br />

vægtning ud fra RSCU, Relative Adaptiveness of a Codon(w). Denne fortæller hvilket <strong>codon</strong> for en<br />

aminosyre, en organisme bruger mest. Ud fra w kan Codon Adaptation Index(CAI) beregnes. CAI<br />

giver en værdi <strong>mellem</strong> 0 og 1, der kan benyttes til at fortælle hvorvidt et givet gen er højtudtrykt<br />

eller ej. Jo tættere CAI-værdien for genet er på 1, jo større er sandsynligheden for at genet er<br />

højtudtrykt. For Saccharomyces cerevisiae er grundlaget for w skabt ud fra 24 højtudtrykte gener,<br />

der er udvalgt <strong>af</strong> Sharp og Li. For at prøve at se, om det kan gøres bedre, når gener, og<br />

ekspressionsværdier for disse, kendes, beregnes en ny CAI, baseret på de højtudtrykte gener. Der<br />

ses ydermere på di<strong>codon</strong>s, et <strong>codon</strong> og det der kommer efter i DNA sekvensen. Herudfra beregnes<br />

en CAI værdi, for at se om det har nogen betydning hvilke <strong>codon</strong>s der sidder ved siden <strong>af</strong> hinanden,<br />

og dermed om det har betydning for hvor hyppigt et gen udtrykkes.<br />

Problemformulering<br />

Der ønskes undersøgt, hvor god Li og Sharps CAI er for Saccharomyces cerevisiae. Dette valideres<br />

ud fra de reelle ekspressionsværdier for hvert gen. Herefter ses der på om CAI kan forbedres, når<br />

ekspression <strong>af</strong> hvert gen kendes. Til slut undersøges det, om det er muligt at lave en bedre CAI,<br />

hvor der ses på di<strong>codon</strong>s.<br />

3


Baggrund<br />

Codon Adaptation Index<br />

Codon Adaptation Index(CAI)[1] bygger på ’Relative synonymous <strong>codon</strong> usage’(RSCU), der er en<br />

værdi for hvor tit et <strong>codon</strong> optræder i forhold til de andre <strong>codon</strong>s(hvis der er nogle), der koder for<br />

den samme aminosyre. Sharp og Li beregner dette for 24 højtudtrykte gener i S. cerevisiae, og det<br />

er blevet beregnet ud fra følgende formel:<br />

RSCU<br />

ij<br />

=<br />

1<br />

n<br />

X<br />

ij<br />

ni<br />

∑ X ij<br />

i j=<br />

1<br />

hvor Xij er antallet <strong>af</strong> gange det j. <strong>codon</strong> for den i. aminosyrer optræder i genet, og ni er antallet <strong>af</strong><br />

alternative <strong>codon</strong>s(<strong>mellem</strong> 1 og 6).<br />

RSCU benyttes til at lave en vægtning <strong>af</strong> <strong>codon</strong>s, ’Relative Adaptiveness of a <strong>codon</strong>’(w) ud fra<br />

følgende formel:<br />

RSCU ij X<br />

w ij = =<br />

RSCU X<br />

hvor RSCUimax og Ximax er RSCU og X-værdien for mest brugte <strong>codon</strong> for hver aminosyrer.<br />

Dette vil give en værdi <strong>mellem</strong> 0 og 1, hvor 1 er det mest brugte <strong>codon</strong> for en aminosyre, for<br />

organismen, og 0 gives til <strong>codon</strong>s der <strong>ikke</strong> optræder.<br />

Denne vægtning <strong>af</strong> <strong>codon</strong>s er grundlaget for beregningen <strong>af</strong> CAI, hvor der for hvert gen beregnes en<br />

værdi ud fra formlen:<br />

imax<br />

1<br />

CAI = exp<br />

L<br />

L<br />

∑<br />

k = 1<br />

ij<br />

imax<br />

ln( w )<br />

hvor wk er w-værdien for det k. <strong>codon</strong>, og L er længden <strong>af</strong> genet.<br />

Den resulterende CAI-værdi(<strong>mellem</strong> 0 og 1) kan bruges til at forudsige om et givet gen er<br />

højtudtrykt. Jo højere CAI, jo mere sandsynligt er det, at genet er højt udtrykt.<br />

k<br />

4


Data<br />

For at lave CAI beregninger, skal der bruges information om gensekvensen for S. cerevisiae, samt<br />

ekspressionsværdier, der fortæller hvorvidt et givet gen er højt udtrykt.<br />

Sekvensdata<br />

Sekvensdata for S. cerevisiae er fundet hos NCBI [9]. S. cerevisiae består <strong>af</strong> 16 kromosomer, og<br />

for hvert kromosom er der hentet en fil der hedder ”*.gbk”.<br />

Disse filer er læst ind i R, hvor hvert kromosom er blevet delt op i gener. For S. cerevisiae er der<br />

5861 gener. Herefter er generne ”klippet” op i <strong>codon</strong>s. Det blev tjekket for hvert gen, hvorvidt der<br />

var mere end et stop <strong>codon</strong>. De gener der havde mere end et stop <strong>codon</strong> er blevet taget fra, og er<br />

<strong>ikke</strong> med i de videre beregninger(det drejer sig om 316 gener). Grunden til at de havde mere end et<br />

stop <strong>codon</strong>, kan bl.a. skyldes frame shift, hvorved læserammen forskydes. I de videre beregninger<br />

benyttes derfor 5545 gener.<br />

Expressionsdata<br />

Ekspressionsdata for S. cerevisiae er ligeledes fundet hos NCBI[10]. Data blev fundet, ved at vælge<br />

”Dataset” under ”Query”. Her blev der søgt på GPL90(for at søge direkte på ”Affymetrix GeneChip<br />

Yeast Genome S98 Array YG-S98”). Dette giver 131 Items. For at data kan bruges videre blev det<br />

tjekket at filerne lå i CEL-format(ubehandlet data). Herefter blev der kigget på GSE, hvor ”Title”,<br />

”Organism(s)” og ”Summary” tjekkes. (”Title” for at sikre at det er S. cerevisiae der arbejdes med,<br />

og <strong>ikke</strong> en mutant eller lignende. ”Organism(s)” for at sikre at det er S. cerevisiae der arbejdes med.<br />

”Summary” for at se hvilket forsøg der ligger bag.) De filer der opfyldte kravene om, at der er S.<br />

cerevisiae, og den <strong>ikke</strong> fx har været udsat for mutation mm., blev downloadet som TAR-fil.<br />

5


Ved eftersyn <strong>af</strong> disse data, blev de sæt der indeholdt fejl slettet, og <strong>ikke</strong> brugt i de videre<br />

beregninger.<br />

Tjek1: Fejl i indlæsning – benyttet ReadAffy() i R.<br />

Plader med ”incomplete line” blev slettet, da de <strong>ikke</strong> var indlæst(uploaded) ordenligt hos NCBI.<br />

Dette gjorde sig gældende for GSM198365.CEL.gz, GSM198367.CEL.gz, GSM198369.CEL.gz og<br />

GSM200686.CEL.gz.<br />

Tjek2: fejl i <strong>af</strong>fymatrix plader(manglende værdier) – benyttet colSums i R<br />

For hver <strong>af</strong>fymatrix plade blev der beregnet colSums. Ved at kigge på alle colSums blev det<br />

bemærket, at det giver værdier <strong>mellem</strong> 25 000 og 37 000. Datasæt med mindre værdi blev fjernet,<br />

da der højst sandsynligt er sket en fejl i indlæsningen.<br />

Datasæt der blev fjernet: colSums datasæt<br />

8909 GSM225461.CEL.gz<br />

17141 GSM236959.CEL.gz<br />

14534 GSM236941.CEL.gz<br />

14353 GSM236954.CEL.gz<br />

21954 GSM29937.CEL.gz<br />

I de videre beregninger benyttes 132 <strong>af</strong>fymatrix plader.<br />

6


Normalisering <strong>af</strong> data<br />

For at kunne sammenligne data fra de forskellige plader, skal disse normaliseres. Derved undgås<br />

systematiske fejl(variation) og noise, der opstår pga. tekniske fejl.<br />

Til normalisering <strong>af</strong> data benyttes 3 forskellige algoritmer: Qspline[7], quantiles.robust og<br />

invariantset[8]. Der benyttes 3, for at se hvilken metode der egner sig bedst til mange plader.<br />

Herefter kan den metode der giver den bedste normalisering udvælges.<br />

Figuren viser normalisering <strong>af</strong> data<br />

Som det ses <strong>af</strong> figuren er quantiles.robust bedst til at tilnærme sig en kurve for datasættene. Denne<br />

normalisering benyttes i de videre beregninger.<br />

7


Expression Index<br />

Efter normalisering <strong>af</strong> data udføres en ”Expression Index” beregning, da hver plade indeholder<br />

probesets. Expression Indexet gør, at der kun er en ekspressionsværdi pr. probe pr. plade. Dette<br />

foretages med to forskellige summerings algoritmer: Robust Multiarray<br />

Average(Medianpolish)[4][5][6] og LiWong[2][3]. Der vælges 2 metoder, så den bedst egnede kan<br />

udvælges.<br />

Figuren viser Expression Index for data<br />

Fra figuren ses det at de to metoder giver lige gode resultater, og der vælges at arbejde videre med<br />

Liwong, da denne algoritme egner sig bedst til at håndtere flere <strong>af</strong>fymatrixplader i teorien.<br />

8


Geometrisk gennemsnit<br />

Herefter beregnes det geometriske gennemsnit for hvert probe(over pladerne). Dette gøres ud fra<br />

følgende formel:<br />

1<br />

n ⎛ ⎞ n<br />

G = ⎜ x n ∏ i ⎟ = x1<br />

⋅ x2<br />

⋅...<br />

⋅<br />

i=<br />

1<br />

⎝<br />

⎠<br />

Når det geometriske gennemsnit er beregnet, er der kun en værdi for hvert probe(9335 værdier i<br />

alt).<br />

Sammenholdes dette tale med antallet <strong>af</strong> gener, ses det, <strong>af</strong> antallet <strong>af</strong> prober er langt højere(antal<br />

gener er 5861). Dette skyldes at der på <strong>af</strong>fymatrix-pladen også er blevet testet sekvenser der måske<br />

er gener, og DNA-sekvenser der <strong>ikke</strong> er gener.<br />

x<br />

n<br />

9


Metoder<br />

Projektet kan deles op i 3 dele:<br />

• Beregning <strong>af</strong> CAI ved at benytte Li og Sharps w.<br />

• Beregne en ny CAI ud fra ekspressionsdata<br />

• Beregne di<strong>codon</strong> CAI<br />

For hvert punkt valideres CAI mod de sande ekspressionsværdier for S. cerevisiae.<br />

Beregning <strong>af</strong> CAI ud fra Li og Sharps w<br />

Først beregnes CAI for hvert gen, ud fra Li og Sharps beregnede w, for at have et<br />

sammenligningsgrundlag.<br />

For at kunne sammenholde disse CAI-værdier med ekspressionsværdierne, benyttes et annoterings<br />

værktøj ygs98[11]. ORF(Open Reading Frame) benyttes til at sammenholde CAI for gener med det<br />

geometriske gennemsnit <strong>af</strong> ekspressionsdata. Ved at benytte ORF til dette, er det de systematiske<br />

navne der sammenlignes.<br />

10


Beregning <strong>af</strong> optimal CAI<br />

Der beregnes en ”Optimal CAI”, for at se om der kan opnås en bedre CAI, når den rigtige<br />

ekspression <strong>af</strong> generne er til rådighed.<br />

Sekvensdata, der indeholder 5545 gener opdeles i 5 sæt. Dette gøres helt tilfældigt.<br />

5545 gener<br />

1109 gener 1109 gener 1109 gener 1109 gener 1109 gener<br />

Sæt 1 Sæt 2 Sæt 3 Sæt 4 Sæt 5<br />

For at illustrere fremgangsmåden, vælges Sæt 1, som værende det sæt der skal beregnes CAI for.<br />

Sæt 2 til 5 slås sammen, og de højtudtrykte gener udvælges. Dette gøres for 24, 100 og 250 gener;<br />

24 fordi Li og Sharps CAI bygger på 24 højt udtrykte gener, 100 for at se om det giver et bedre<br />

resultat med flere, og 250 <strong>af</strong> samme årsag. Måden de højtudtrykte gener findes på, er ved at<br />

sammenholde dette sammensatte sæt(Sæt 2 til 5) med ekspressionsdata, så det er de 24, 100 eller<br />

250 gener der har den højeste ekspressionsværdi, der benyttes. For disse udvalgte højtudtrykte<br />

gener beregnes RSCU, der ligger til grund for w. Denne beregnede w benyttes til at beregne en<br />

”Optimal CAI” for Sæt 1.<br />

Dette gøres for alle sæt.(Sæt 2 udvælges og højt udtrykte gener fra sæt 1, 3, 4 og 5 benyttes til at<br />

lave en w osv.)<br />

Disse CAI-værdier sammenholdes derefter med ekspressionsdata for sættet, og ved hjælp <strong>af</strong><br />

Pearson korrelation ses det hvor god den nye CAI er.<br />

For at tjekke med hele organismen, skal der også beregnes en optimal CAI, hvor de 24, 100 og 250<br />

højst udtrykte gener i S. cerevisiae udtages, og bruges på hele organismen.<br />

11


Di<strong>codon</strong> CAI<br />

For at prøve noget nyt, beregnes en ”di<strong>codon</strong> CAI”. Denne beregnes som CAI, men i stedet for at se<br />

på et <strong>codon</strong> <strong>af</strong> gangen, ses der på et <strong>codon</strong>, og det der kommer efter. Dette giver 3721 mulige<br />

kombinationer, idet der ses bort fra stop <strong>codon</strong>s.<br />

Ribosomer der foretager proteinsyntese har 3 sites; Acceptor site(A-site), Peptide site(P-site) og<br />

Exit site(E-site). Når proteinsyntesen forløber kan der kun sidde 2 tRNA i ribosomet, og der vil<br />

derfor kun være fyldt 2 pladser <strong>af</strong> gangen. I initieringen er det kun P-site der er fyldt(kun start<br />

<strong>codon</strong> ATG), i elongering er både P- og A-site fyldte, og i translokation er E-og P-site optaget. Det<br />

er kun det første <strong>codon</strong> der sidder alene. Alle efterfølgende tRNA vil binde mens der sidder et andet<br />

i forvejen. Derfor er det interessant at undersøge di<strong>codon</strong>s, og se om der er en interaktion i<br />

ribosomet for de højtudtrykte gener.<br />

Ved at beregne di<strong>codon</strong> CAI undersøges det, om det har nogen biologisk effekt hvilke <strong>codon</strong>s der<br />

sidder ved siden <strong>af</strong> hinanden.<br />

”di<strong>codon</strong> CAI” beregnes, med de 24, 100, 250 højst udtrykte gener i hele organismen, og med alle<br />

gener, som grundlag for RSCU og dermed w, og formlerne RSCU og w stammer fra, er de samme<br />

der benyttes til de andre RSCU og w beregninger.<br />

12


Resultater<br />

Li og Sharps CAI<br />

Herunder er vist en figur <strong>af</strong> de beregnede CAI-værdier, ved at bruge Li og Sharps w.<br />

Figuren viser fordelingen <strong>af</strong> CAI værdier, beregnet vha. Li og Sharps w<br />

For at få bedre overblik over figuren er der lavet en oversigt for CAI-værdierne for S. cerevisiae,<br />

beregnet ud fra Li og Sharps w.<br />

Oversigt over de 5545 beregnede CAI-værdier:<br />

Min. 1st Qu. Median Mean 3rd. Qu. Max.<br />

0,04629 0,13060 0,15050 0,18160 0,18500 0,92650<br />

Det ses, både på figuren og ud fra oversigten, at de fleste CAI-værdier er lave. Læg især mærke til<br />

forskellen <strong>mellem</strong> den 3. Qu. og max værdien. Dette betyder at S. cerevisiae kun har en lille<br />

mængde højtudtrykte gener, når CAI beregnes ud fra Li og Sharps w. På figuren ses disse som et<br />

hak øverst i figuren. Her møder de to fordelinger, de lavt udtrykte og de højtudtrykte gener,<br />

hinanden. De gener der er vist længst til højre i figuren er de højtudtrykte.<br />

13


Optimal CAI<br />

Herunder er der vist en oversigt for CAI-værdierne for sæt 1, der bygger på de højtudtrykte gener i<br />

sæt 2 til 5, samt en oversigt for CAI for hele organismen, der bygger på de højst udtrykte gener.<br />

Oversigt over CAI-værdier for sæt 1 og hele S. cerevisiae:<br />

Udtagne gener\ oversigt Min. 1st Qu. Median Mean 3rd Qu. Max<br />

24 (for sæt 1) 0,5606 0,7366 0,7583 0,7554 0,7760 0,8632<br />

100 (for sæt 1) 0,5298 0,7188 0,7420 0,7388 0,7611 0,8515<br />

250 (for sæt 1) 0,5254 0,7147 0,7374 0,7340 0,7569 0,8464<br />

24 (for hele organismen) 0,5186 0,7126 0,7343 0,7302 0,7518 0,8823<br />

100 (for hele organismen) 0,5042 0,7141 0,7355 0,7331 0,7548 0,9000<br />

250 (for hele organismen) 0,5098 0,7178 0,7390 0,7362 0,7580 0,9009<br />

Det ses, at de nye CAI-værdier er langt højere end CAI-værdierne beregnet med Li og Sharps w.<br />

Den laveste CAI værdi ligger på ca. 0,5, altså langt højere end den 3. Qu. for Li og Sharp. Dette<br />

betyder at denne nye forudsigelse <strong>af</strong> højtudtrykte gener er dårligere, da de fleste gener bliver spået<br />

til at være højtudtrykte. Udover det, er de nye max værdier også under Li og Sharps max.<br />

For hvert sæt(1 til 5) er der beregnet Pearson korrelation, for at se hvor godt de ”Optimale CAI”<br />

værdier stemmer overens med ekspressionsværdierne, for at se om der er en sammenhæng selvom<br />

alle gener forudsiges til at være højtudtrykte.<br />

Pearson korrelation for logaritme til ekspressionsværdier:<br />

Sæt\antal gener 24 100 250 Sharp<br />

Sæt 1 0.3122156 0.3044633 0.2869817 0.5782043<br />

Sæt 2 0.2893278 0.3016406 0.2914669 0.6122943<br />

Sæt 3 0.3457732 0.3633289 0.3286248 0.6032583<br />

Sæt 4 0.3210191 0.3062364 0.2997722 0.598784<br />

Sæt 5 0.2625648 0.2761803 0.2465909 0.5557018<br />

Alle gener 0.2385502 0.2978506 0.2835487 0.5897041<br />

14


Pearson korrelation for <strong>ikke</strong> logaritme til ekspressionsværdier:<br />

Sæt\antal gener 24 100 250 Sharp<br />

Sæt 1 0.368084 0.3620599 0.3421436 0.7187798<br />

Sæt 2 0.345096 0.3572693 0.3489225 0.7454666<br />

Sæt 3 0.4229868 0.4452385 0.4081458 0.7375635<br />

Sæt 4 0.3714691 0.3546348 0.3467574 0.7521912<br />

Sæt 5 0.3304807 0.3392188 0.3076552 0.7265485<br />

Alle gener 0.2876454 0.3575597 0.3409413 0.7341756<br />

Som det fremgår <strong>af</strong> tabellerne, så er der en tendens til at korrelationen for den optimale CAI er<br />

omkring halvdelen <strong>af</strong> korrelationen for CAI beregnet ud fra Li og Sharps w, for 24 udtagne gener.<br />

Herefter stiger optimal CAI korrelationen generelt for 100 gener, og falder igen for 250. Disse<br />

resultater skyldes, at der ved 24 <strong>ikke</strong> er udtaget nok højtudtrykte gener, og ved 250 er udtaget så<br />

mange gener, at det <strong>ikke</strong> kun er højt udtrykte gener der beregnes CAI for. Det ser også ud til at der<br />

er bedre korrelation <strong>mellem</strong> <strong>ikke</strong> log transformerede ekspressionsværdier og CAI. Det ses igen, at<br />

de beregnede CAI-værdier er dårligere i forhold til Li og Sharps forudsigelse.<br />

For at se hvor disse problemer med forudsigelse opstår, ses der på den beregnede w.<br />

Beregnet w for hele S. cerevisiae, med 24 højtudtrykte gener som grundlag:<br />

AAA 1.0000000 CAA 1.0000000 GAA 1.0000000 TAA --<br />

AAC 0.6694215 CAC 0.5351562 GAC 0.4854246 TAC 0.8051948<br />

AAG 0.6095662 CAG 0.4660377 GAG 0.4217221 TAG --<br />

AAT 1.0000000 CAT 1.0000000 GAT 1.0000000 TAT 1.0000000<br />

ACA 1.0000000 CCA 1.0000000 GCA 0.8735632 TCA 0.8374165<br />

ACC 0.5783784 CCC 0.3915663 GCC 0.5632184 TCC 0.6236080<br />

ACG 0.4135135 CCG 0.2590361 GCG 0.3189655 TCG 0.3808463<br />

ACT 0.9783784 CCT 0.8222892 GCT 1.0000000 TCT 1.0000000<br />

AGA 1.0000000 CGA 0.1480519 GGA 0.5203252 TGA --<br />

AGC 0.4298441 CGC 0.1766234 GGC 0.4146341 TGC 0.7547170<br />

AGG 0.4337662 CGG 0.1038961 GGG 0.2764228 TGG 1.0000000<br />

AGT 0.6280624 CGT 0.4181818 GGT 1.0000000 TGT 1.0000000<br />

ATA 0.5934256 CTA 0.4395797 GTA 0.5943878 TTA 1.0000000<br />

ATC 0.4913495 CTC 0.2119089 GTC 0.4311224 TTC 0.6445312<br />

ATG 1.0000000 CTG 0.3362522 GTG 0.4311224 TTG 0.8283713<br />

ATT 1.0000000 CTT 0.4658494 GTT 1.0000000 TTT 1.0000000<br />

15


For at få et bedre overblik over w, laves der en oversigt for w.<br />

Oversigt for Li og Sharps w:<br />

Min. 1st Qu. Median Mean 3rd Qu. Max<br />

0,0010 0,0070 0,1130 0,4164 1.000 1.000<br />

Oversigt over ny beregnet w(for de 24 højst udtrykte gener):<br />

Min. 1st Qu. Median Mean 3rd Qu. Max<br />

0,1039 0,4311 0,6236 0,6689 1.000 1.000<br />

Ses de beregnede vægte(w) sammen med Li og Sharps beregnede w, ses det, at hvor Li og Sharp<br />

har 1 er der i de nye beregninger lave værdier, og omvendt. Dette kommer til udtryk i CAI, da CAI<br />

beregningen bygger på w. Det ses også, at i Li og Sharps w er der mange lave værdier, med en<br />

median på 0,1130, hvor der i de nye beregninger er en median på 0,62336. Hvis der ses på<br />

minimums værdien, er der en faktor 100 til forskel, så alt i alt er de nye beregnede vægte langt<br />

højere end Li og Sharps.<br />

16


Di<strong>codon</strong> CAI<br />

For at få et overblik over di<strong>codon</strong> CAI, er der lavet en oversigt:<br />

Oversigt over di<strong>codon</strong> CAI:<br />

Udtagne gener\ oversigt Min. 1st Qu. Median Mean 3rd Qu. Max<br />

24 højst udtrykte 0,2996 0,4693 0,4955 0,4924 0,5182 0,6797<br />

100 højst udtrykte 0,2672 0,4733 0,5049 0,5033 0,5343 0,7511<br />

250 højst udtrykte 0,2432 0,4898 0,5222 0,5194 0,5518 0,8039<br />

Alle gener 0,2429 0,5072 0,5389 0,5365 0,5679 0,8277<br />

I disse CAI-værdier er der større spredning end der var for optimal CAI, men spredningen er stadig<br />

<strong>ikke</strong> lige så god som Li og Sharps. Med en mean på omkring 0,5 vil der forudsiges mange<br />

højtudtrykte gener, hvor der i Li og Sharps kun forudsiges en lille mængde højtudtrykte gener.<br />

Det ses at Max. stiger løbende fra 24 udtagne gener til alle, og at Min. er faldende fra 24 udtagne<br />

gener til alle. Dette skyldes manglende værdier for di<strong>codon</strong>s. Grunden til dette er, der for 24<br />

udvalgte gener er et stort antal di<strong>codon</strong>s der <strong>ikke</strong> optræder, hvilket medfører en w-værdi for det<br />

di<strong>codon</strong> på 0. Dette vil resultere i lave CAI-værdier. For 100 udvalgte gener er der flere di<strong>codon</strong>s<br />

der optræder, og endnu flere for de 250 højst udtrykte gener. Når ”di<strong>codon</strong> CAI” beregnes med alle<br />

gener som grundlag, går det ud over de højtudtrykte gener, og dermed mønstret i di<strong>codon</strong>s, men til<br />

gengæld er alle <strong>codon</strong>s til stede(hvor det di<strong>codon</strong> der optræder færrest gange, er til stede 15 gange)<br />

Den mængde gener der skal udtages før alle di<strong>codon</strong>s optræder mindst 1 gang er 730, altså de 730<br />

gener med den højeste ekspressionsværdi; men ved denne udtagelse vil mængden <strong>af</strong> <strong>ikke</strong><br />

højtudtrykte gener, der udtages, være så stor, at den nye CAI <strong>ikke</strong> kan forudsige højtudtrykte gener.<br />

17


Den beregnede ”di<strong>codon</strong> CAI” er blevet sammenlignet med ekspressionsværdierne ved Pearson<br />

korrelation, for at se om der er en sammenhæng <strong>mellem</strong> CAI-værdien og ekspressionen <strong>af</strong> genet.<br />

Korrelationsværdier for di<strong>codon</strong> CAI:<br />

log\antal gener 24 100 250 5545(alle)<br />

log til Exp. 0.1817213 0.3170762 0.3081468 0.3201857<br />

Ikke log 0.2399138 0.3900954 0.3730618 0.3823349<br />

Som det ses <strong>af</strong> tabellen, er der en tendens til at korrelationen <strong>mellem</strong> ekspressionsværdierne og<br />

di<strong>codon</strong> CAI stiger fra 24 til 100 udvalgte gener, hvorefter den falder for 250 udtagne gener. Det<br />

samme gjorde sig gældende for ”optimal CAI”. Det skal dog bemærkes, at korrelationen stiger for<br />

alle gener. Dette skyldes, at alle gener bidrager med di<strong>codon</strong>s, så korrelationen burde stige, da der<br />

er mange di<strong>codon</strong>s at beregne RSCU ud fra. Korrelationen er dog stadig så lav, at denne CAI-værdi<br />

<strong>ikke</strong> kan benyttes til forudsigelse <strong>af</strong> højtudtrykte gener.<br />

Grunden til de høje CAI-værdier skal igen findes i w, der nu er langt større end Li og Sharps<br />

(størrelsesmæssigt: 64 værdier før mod 3721 nu), men med mange høje værdier. Der er dog 0’er,<br />

men disse optræder kun fordi det aktuelle di<strong>codon</strong> <strong>ikke</strong> er i de højtudtrykte gener.<br />

18


Diskussion<br />

Den optimale CAI forudsiger langt flere højtudtrykte gener end Li og Sharps CAI. Dette skyldes w,<br />

vis værdier er højere for optimal CAI, end de er oprindeligt. Ses der på korrelationen <strong>mellem</strong> den<br />

optimale CAI og de faktiske ekspressionsværdier for gener, ses det, at der er lav korrelation,<br />

hvorimod der for den oprindelige CAI er høj korrelation med ekspressionen <strong>af</strong> generne.<br />

For at forklare dette, er der set på basesammensætningen i de udvalgte gener.<br />

Basesammensætningen er <strong>af</strong>gørende for hvilken temperatur organismen kan leve ved. Jo flere A’er<br />

og T’er, jo højere temperaturer kan den klare, uden at DNA’et smelter. Samtidig skal der <strong>ikke</strong> være<br />

for mange, så organismen <strong>ikke</strong> selv kan smelte sin DNA og derved udrykke gener.<br />

Basesammensætning for S. cerevisiae:<br />

Udtagne gener\base A C G T<br />

24 31,56% 19,15% 20,94% 28,35%<br />

100 32,40% 19,37% 20,59% 27,64%<br />

250 32,73% 19,21% 20,38% 27,68%<br />

Hele organismen 32,79% 19,15% 20,43% 27,63%<br />

De høje CAI-værdier kan <strong>ikke</strong> forklares ud fra basesammensætningen i de udtagne gener, da den<br />

procentvise opdeling er relativ stabil. Der er <strong>ikke</strong> noget tidspunkt hvor rækkefølgen for den base der<br />

benyttes mest ændres. (Rækkefælgen er: A, T, G, C)<br />

For di<strong>codon</strong> CAI blev CAI-værdierne også større end for den oprindelige CAI. Her skal grunden<br />

igen findes i w, der overordnet indeholder mange store værdier, i forhold til Li og Sharps w.<br />

S. cerevisiae er for ”lille” en organisme at beregne di<strong>codon</strong> CAI på, da <strong>ikke</strong> alle di<strong>codon</strong>s optræder i<br />

de højtudtrykte gener. Dette medfører, at grundlaget for RSCU beregningen er <strong>ikke</strong> optimal, da der<br />

vil optræde 0’er. Disse overføres til w og giver sig dermed udtrykt i CAI, hvor en lavere CAI<br />

beregnes for gener med di<strong>codon</strong>s der <strong>ikke</strong> optræder i de højtudtrykte gener. Dette betyder igen, at<br />

korrelationen bliver lav, da nogle di<strong>codon</strong>s <strong>ikke</strong> vægtes, og der dermed opstår fejl i CAI.<br />

19


Figuren viser fordelingen <strong>af</strong> di<strong>codon</strong> CAI-værdier beregnet ud fra 100 højtudtrykte gener<br />

Det ses på figuren, at der er et lille hak, som der er for Li og Sharps CAI, og dermed en forudsigelse<br />

<strong>af</strong> højtudtrykte gener, men da der <strong>ikke</strong> er så mange punkter efterfølgende, forudsiger denne endnu<br />

færre højtudtrykte gener. Figuren viser di<strong>codon</strong> CAI, der er beregnet ud fra 100 udtagne gener, men<br />

det samme gjorde sig gældende for de andre udtag.<br />

20


Konklusion<br />

Det er blevet undersøgt hvor god Li og Sharps CAI er, og det kan konkluderes at denne er det<br />

bedste bud til forudsigelse <strong>af</strong> højtudtrykte gener, da der er en korrelation <strong>mellem</strong> CAI og<br />

ekspressionsværdierne på 0,734 (<strong>ikke</strong> log-transformeret data). Samtidig forudsiges kun en lille del<br />

<strong>af</strong> det samlede antal gener til at være højtudtrykte.<br />

Der er blevet beregnet en ”Optimal” CAI, men denne egner sig <strong>ikke</strong> til forudsigelse <strong>af</strong> højtudtrykte<br />

gener, da der <strong>ikke</strong> er nogle CAI-værdier under 0,5 og dermed ingen forudsigelse <strong>af</strong> lavt udtrykte<br />

gener, og som følge der<strong>af</strong> er korrelationen generelt lav. Grunden til dette er w, der næsten er modsat<br />

<strong>af</strong> Li og Sharps w. Den indeholder ingen lave værdier, hvorimod den oprindelige næsten <strong>ikke</strong> har<br />

nogle høje værdier(når der ses bort fra de værdier der er 1).<br />

Til slut er der blevet beregnet en di<strong>codon</strong> CAI. I denne er der større spredning end i den ”optimale”<br />

CAI, men forudsigelsen <strong>af</strong> højtudtrykte gener er stadig <strong>ikke</strong> god, da mean og median for disse CAIværdier<br />

ligger over 0,7. Der<strong>af</strong> ses det, at over halvdelen <strong>af</strong> generne forudsiges til at være<br />

højtudtrykte<br />

Der er set på basesammensætningen, for at se om denne kunne forklare resultaterne, men<br />

sammensætningen er næsten konstant for de udtagne gener sammenlignet med hele organismen, så<br />

dette kan <strong>ikke</strong> forklare de høje CAI-værdier.<br />

Det må derfor konkluderes, at hvis man ønsker forudsigelse <strong>af</strong> højtudtrykte gener, skal man benytte<br />

Li og Sharps w.<br />

21


Kilder:<br />

[1] Sharp PM, Li WH: The <strong>codon</strong> adaptation index: a measure of directional synonymous<br />

<strong>codon</strong> usage bias, and its potential applications. Nucleic Acids Res 1987, 15:1281-<br />

1295<br />

[2] Li, C. and Wong, W.H. (2001) _Genome Biology_ *2*, 1-11.<br />

[3] Li, C. and Wong, W.H. (2001) _Proc. Natl. Acad. Sci USA_ *98*, 31-36.<br />

[4] R<strong>af</strong>ael. A. Irizarry, Benjamin M. Bolstad, Francois Collin, Leslie<br />

M. Cope, Bridget Hobbs and Terence P. Speed (2003), Summaries of<br />

Affymetrix GeneChip probe level data Nucleic Acids Research 31(4):e15<br />

[5] Bolstad, B.M., Irizarry R. A., Astrand M., and Speed, T.P. (2003),<br />

A Comparison of Normalization Methods for High Density<br />

Oligonucleotide Array Data Based on Bias and Variance.<br />

Bioinformatics 19(2):185-193<br />

[6] Irizarry, RA, Hobbs, B, Collin, F, Beazer-Barclay, YD, Antonellis,<br />

KJ, Scherf, U, Speed, TP (2003) Exploration, Normalization, and<br />

Summaries of High Density Oligonucleotide Array Probe Level Data.<br />

Biostatistics .Vol. 4, Number 2: 249-264<br />

[7] Christopher Workman, Lars Juhl Jensen, Hanne Jarmer, Randy Berka, Laurent<br />

Gautier, Henrik Bj{\o}rn Nielsen, Hans-Henrik Saxild, Claus Nielsen, S{\o}ren<br />

Brunak, and Steen Knudsen. A new non-linear normal- ization method for reducing<br />

variability in dna microarray experiments. Genome Biology, accepted, 2002<br />

22


[8] Cheng Li and Wing Hung Wong, Model-based analysis of oligonucleotides arrays:<br />

model validation, design issues and standard error application. Genome Biology 2001,<br />

2(8):research0032.1-0032.11<br />

[9] ftp://ftp.ncbi.nih.gov/genomes/Fungi/Saccharomyces_cerevisiae<br />

[10] http://www.ncbi.nlm.nih.gov/geo/<br />

[11] http://www.bioconductor.org/biocLite.R (ygs98)<br />

23


Appendiks<br />

Beregning <strong>af</strong> CAI ud fra Li og Sharps w:<br />

wk=0<br />

CAI.vector


Normalisering <strong>af</strong> data:<br />

Sc.data.qsp


Expression Index Calculation<br />

Liwong<br />

Sc.ei.liwong


Koble genudtryk med gennavne<br />

source(“http://www.bioconductor.org/biocLite.R”)<br />

biocLite(c(“ygs98”))par(mfrow=c(2,2))<br />

require(ygs98)<br />

require(annotate)<br />

Affy2Orf


Sammenligning <strong>mellem</strong> Sharps CAI og Exp. Values:<br />

> names(Sc.gen)


Til Optimal CAI beregning<br />

kun gener med et stop <strong>codon</strong>:<br />

NySc.gen


RSCU for de første 100 i sæt 2-5(efter orden):<br />

RSCU100


Beregning <strong>af</strong> CAI<br />

wk=0<br />

CAI.vector.100ran1


Udtager 24 højt-udtrykte gener<br />

RSCUprove


Beregning <strong>af</strong> CAI<br />

wk=0<br />

CAI.vector.24ran1


Udtager 250 højt-udtrykte gener<br />

RSCU250


Beregning <strong>af</strong> CAI<br />

wk=0<br />

CAI.vector.250ran1


Sammenligning med Sharps CAI for sæt 1 og Exp. Values:<br />

Sammen.ShCgen


For alle gener...De 100 højst udtrykte gener:<br />

rof1


Beregning <strong>af</strong> CAI<br />

wk=0<br />

CAI.vector.100


For alle gener...For de 24 højst udtrykte gener:<br />

rof1


Beregning <strong>af</strong> CAI<br />

wk=0<br />

CAI.vector.24


For alle gener...De 250 højst udtrykte gener udvælges:<br />

rof1


Beregning <strong>af</strong> CAI<br />

wk=0<br />

CAI.vector.250


Sammenligning <strong>mellem</strong> Li og Sharps CAI og beregnet CAI for hele organismen:<br />

Sammen.SCAIgenALLE


Di<strong>codon</strong> CAI:<br />

Laver all.bis:<br />

all.nonstop


Sammensætning <strong>af</strong> gener i di<strong>codon</strong>s:<br />

a


Beregning <strong>af</strong> di<strong>codon</strong> w:<br />

bisw.100


Sammenligning <strong>mellem</strong> di<strong>codon</strong> CAI og Exp. Values:<br />

Sammen.digen

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!