Undersøgelse af ikke lineære sammenhænge mellem codon ...

Undersøgelse af ikke lineære sammenhænge mellem 

codon forekomst og udtryk 

Uddannelsesinstitution: 

DTU, Anker Engelundsvej 1, 2800 Kgs. Lyngby 

Vejleder: 

Lasse Engbo Christiansen, Institut for Matematisk Modellering (DTU IMM) (lec@imm.dtu.dk) 

Vejleder(ekstern) 

Carsten Friis, Institut for Systembiologi(DTU Biosys)(carsten@cbs.dk) 

Tidsrummet for projekt: 

E08 mandag d. 04-02-08 til E08 fredag d. 27-06-08 

af 

Martin Høegh Vangkilde, s042313 

________________________ 

1

Indholdsfortegnelse 

Indledning ............................................................................................................................................3 

Problemformulering.............................................................................................................................3 

Baggrund..............................................................................................................................................4 

Codon Adaptation Index ..................................................................................................................4 

Data ..................................................................................................................................................5 

Sekvensdata..................................................................................................................................5 

Expressionsdata............................................................................................................................5 

Metoder ..............................................................................................................................................10 

Beregning af CAI ud fra Li og Sharps w .......................................................................................10 

Beregning af optimal CAI..............................................................................................................11 

Dicodon CAI..................................................................................................................................12 

Resultater ...........................................................................................................................................13 

Li og Sharps CAI ...........................................................................................................................13 

Optimal CAI...................................................................................................................................14 

Dicodon CAI..................................................................................................................................17 

Diskussion..........................................................................................................................................19 

Konklusion.........................................................................................................................................21 

Kilder: ................................................................................................................................................22 

Appendiks ..........................................................................................................................................24 

2

Indledning 

Protein kodes af RNA, der igen kodes af DNA. DNA sekvensen kan opdeles i codons, der hver 

koder for en aminosyre. Der er 64 forskellige codons, hvoraf 3 er stopcodons, der ikke koder for en 

aminosyre. De resterende 61 codons koder 20 forskellige aminosyre. Da der for nogle aminosyrer er 

6 mulige codons, er det interessant at undersøge, om der er nogle codons der optræder hyppigere 

end andre. Til at belyse dette benyttes Relative Synonymous Codon Usage(RSCU), der fortæller 

hvor tit et codons optræder, i forhold til de andre der koder for den samme aminosyre. Der laves en 

vægtning ud fra RSCU, Relative Adaptiveness of a Codon(w). Denne fortæller hvilket codon for en 

aminosyre, en organisme bruger mest. Ud fra w kan Codon Adaptation Index(CAI) beregnes. CAI 

giver en værdi mellem 0 og 1, der kan benyttes til at fortælle hvorvidt et givet gen er højtudtrykt 

eller ej. Jo tættere CAI-værdien for genet er på 1, jo større er sandsynligheden for at genet er 

højtudtrykt. For Saccharomyces cerevisiae er grundlaget for w skabt ud fra 24 højtudtrykte gener, 

der er udvalgt af Sharp og Li. For at prøve at se, om det kan gøres bedre, når gener, og 

ekspressionsværdier for disse, kendes, beregnes en ny CAI, baseret på de højtudtrykte gener. Der 

ses ydermere på dicodons, et codon og det der kommer efter i DNA sekvensen. Herudfra beregnes 

en CAI værdi, for at se om det har nogen betydning hvilke codons der sidder ved siden af hinanden, 

og dermed om det har betydning for hvor hyppigt et gen udtrykkes. 

Problemformulering 

Der ønskes undersøgt, hvor god Li og Sharps CAI er for Saccharomyces cerevisiae. Dette valideres 

ud fra de reelle ekspressionsværdier for hvert gen. Herefter ses der på om CAI kan forbedres, når 

ekspression af hvert gen kendes. Til slut undersøges det, om det er muligt at lave en bedre CAI, 

hvor der ses på dicodons. 

3

Baggrund 

Codon Adaptation Index 

Codon Adaptation Index(CAI)[1] bygger på ’Relative synonymous codon usage’(RSCU), der er en 

værdi for hvor tit et codon optræder i forhold til de andre codons(hvis der er nogle), der koder for 

den samme aminosyre. Sharp og Li beregner dette for 24 højtudtrykte gener i S. cerevisiae, og det 

er blevet beregnet ud fra følgende formel: 

RSCU 

ij 

= 

1 

n 

X 

ij 

ni 

∑ X ij 

i j= 

1 

hvor Xij er antallet af gange det j. codon for den i. aminosyrer optræder i genet, og ni er antallet af 

alternative codons(mellem 1 og 6). 

RSCU benyttes til at lave en vægtning af codons, ’Relative Adaptiveness of a codon’(w) ud fra 

følgende formel: 

RSCU ij X 

w ij = = 

RSCU X 

hvor RSCUimax og Ximax er RSCU og X-værdien for mest brugte codon for hver aminosyrer. 

Dette vil give en værdi mellem 0 og 1, hvor 1 er det mest brugte codon for en aminosyre, for 

organismen, og 0 gives til codons der ikke optræder. 

Denne vægtning af codons er grundlaget for beregningen af CAI, hvor der for hvert gen beregnes en 

værdi ud fra formlen: 

imax 

1 

CAI = exp 

L 

L 

∑ 

k = 1 

ij 

imax 

ln( w ) 

hvor wk er w-værdien for det k. codon, og L er længden af genet. 

Den resulterende CAI-værdi(mellem 0 og 1) kan bruges til at forudsige om et givet gen er 

højtudtrykt. Jo højere CAI, jo mere sandsynligt er det, at genet er højt udtrykt. 

k 

4

Data 

For at lave CAI beregninger, skal der bruges information om gensekvensen for S. cerevisiae, samt 

ekspressionsværdier, der fortæller hvorvidt et givet gen er højt udtrykt. 

Sekvensdata 

Sekvensdata for S. cerevisiae er fundet hos NCBI [9]. S. cerevisiae består af 16 kromosomer, og 

for hvert kromosom er der hentet en fil der hedder ”*.gbk”. 

Disse filer er læst ind i R, hvor hvert kromosom er blevet delt op i gener. For S. cerevisiae er der 

5861 gener. Herefter er generne ”klippet” op i codons. Det blev tjekket for hvert gen, hvorvidt der 

var mere end et stop codon. De gener der havde mere end et stop codon er blevet taget fra, og er 

ikke med i de videre beregninger(det drejer sig om 316 gener). Grunden til at de havde mere end et 

stop codon, kan bl.a. skyldes frame shift, hvorved læserammen forskydes. I de videre beregninger 

benyttes derfor 5545 gener. 

Expressionsdata 

Ekspressionsdata for S. cerevisiae er ligeledes fundet hos NCBI[10]. Data blev fundet, ved at vælge 

”Dataset” under ”Query”. Her blev der søgt på GPL90(for at søge direkte på ”Affymetrix GeneChip 

Yeast Genome S98 Array YG-S98”). Dette giver 131 Items. For at data kan bruges videre blev det 

tjekket at filerne lå i CEL-format(ubehandlet data). Herefter blev der kigget på GSE, hvor ”Title”, 

”Organism(s)” og ”Summary” tjekkes. (”Title” for at sikre at det er S. cerevisiae der arbejdes med, 

og ikke en mutant eller lignende. ”Organism(s)” for at sikre at det er S. cerevisiae der arbejdes med. 

”Summary” for at se hvilket forsøg der ligger bag.) De filer der opfyldte kravene om, at der er S. 

cerevisiae, og den ikke fx har været udsat for mutation mm., blev downloadet som TAR-fil. 

5

Ved eftersyn af disse data, blev de sæt der indeholdt fejl slettet, og ikke brugt i de videre 

beregninger. 

Tjek1: Fejl i indlæsning – benyttet ReadAffy() i R. 

Plader med ”incomplete line” blev slettet, da de ikke var indlæst(uploaded) ordenligt hos NCBI. 

Dette gjorde sig gældende for GSM198365.CEL.gz, GSM198367.CEL.gz, GSM198369.CEL.gz og 

GSM200686.CEL.gz. 

Tjek2: fejl i affymatrix plader(manglende værdier) – benyttet colSums i R 

For hver affymatrix plade blev der beregnet colSums. Ved at kigge på alle colSums blev det 

bemærket, at det giver værdier mellem 25 000 og 37 000. Datasæt med mindre værdi blev fjernet, 

da der højst sandsynligt er sket en fejl i indlæsningen. 

Datasæt der blev fjernet: colSums datasæt 

8909 GSM225461.CEL.gz 

17141 GSM236959.CEL.gz 

14534 GSM236941.CEL.gz 

14353 GSM236954.CEL.gz 

21954 GSM29937.CEL.gz 

I de videre beregninger benyttes 132 affymatrix plader. 

6

Normalisering af data 

For at kunne sammenligne data fra de forskellige plader, skal disse normaliseres. Derved undgås 

systematiske fejl(variation) og noise, der opstår pga. tekniske fejl. 

Til normalisering af data benyttes 3 forskellige algoritmer: Qspline[7], quantiles.robust og 

invariantset[8]. Der benyttes 3, for at se hvilken metode der egner sig bedst til mange plader. 

Herefter kan den metode der giver den bedste normalisering udvælges. 

Figuren viser normalisering af data 

Som det ses af figuren er quantiles.robust bedst til at tilnærme sig en kurve for datasættene. Denne 

normalisering benyttes i de videre beregninger. 

7

Expression Index 

Efter normalisering af data udføres en ”Expression Index” beregning, da hver plade indeholder 

probesets. Expression Indexet gør, at der kun er en ekspressionsværdi pr. probe pr. plade. Dette 

foretages med to forskellige summerings algoritmer: Robust Multiarray 

Average(Medianpolish)[4][5][6] og LiWong[2][3]. Der vælges 2 metoder, så den bedst egnede kan 

udvælges. 

Figuren viser Expression Index for data 

Fra figuren ses det at de to metoder giver lige gode resultater, og der vælges at arbejde videre med 

Liwong, da denne algoritme egner sig bedst til at håndtere flere affymatrixplader i teorien. 

8

Geometrisk gennemsnit 

Herefter beregnes det geometriske gennemsnit for hvert probe(over pladerne). Dette gøres ud fra 

følgende formel: 

1 

n ⎛ ⎞ n 

G = ⎜ x n ∏ i ⎟ = x1 

⋅ x2 

⋅... 

⋅ 

i= 

1 

⎝ 

⎠ 

Når det geometriske gennemsnit er beregnet, er der kun en værdi for hvert probe(9335 værdier i 

alt). 

Sammenholdes dette tale med antallet af gener, ses det, af antallet af prober er langt højere(antal 

gener er 5861). Dette skyldes at der på affymatrix-pladen også er blevet testet sekvenser der måske 

er gener, og DNA-sekvenser der ikke er gener. 

x 

n 

9

Metoder 

Projektet kan deles op i 3 dele: 

• Beregning af CAI ved at benytte Li og Sharps w. 

• Beregne en ny CAI ud fra ekspressionsdata 

• Beregne dicodon CAI 

For hvert punkt valideres CAI mod de sande ekspressionsværdier for S. cerevisiae. 

Beregning af CAI ud fra Li og Sharps w 

Først beregnes CAI for hvert gen, ud fra Li og Sharps beregnede w, for at have et 

sammenligningsgrundlag. 

For at kunne sammenholde disse CAI-værdier med ekspressionsværdierne, benyttes et annoterings 

værktøj ygs98[11]. ORF(Open Reading Frame) benyttes til at sammenholde CAI for gener med det 

geometriske gennemsnit af ekspressionsdata. Ved at benytte ORF til dette, er det de systematiske 

navne der sammenlignes. 

10

Beregning af optimal CAI 

Der beregnes en ”Optimal CAI”, for at se om der kan opnås en bedre CAI, når den rigtige 

ekspression af generne er til rådighed. 

Sekvensdata, der indeholder 5545 gener opdeles i 5 sæt. Dette gøres helt tilfældigt. 

5545 gener 

1109 gener 1109 gener 1109 gener 1109 gener 1109 gener 

Sæt 1 Sæt 2 Sæt 3 Sæt 4 Sæt 5 

For at illustrere fremgangsmåden, vælges Sæt 1, som værende det sæt der skal beregnes CAI for. 

Sæt 2 til 5 slås sammen, og de højtudtrykte gener udvælges. Dette gøres for 24, 100 og 250 gener; 

24 fordi Li og Sharps CAI bygger på 24 højt udtrykte gener, 100 for at se om det giver et bedre 

resultat med flere, og 250 af samme årsag. Måden de højtudtrykte gener findes på, er ved at 

sammenholde dette sammensatte sæt(Sæt 2 til 5) med ekspressionsdata, så det er de 24, 100 eller 

250 gener der har den højeste ekspressionsværdi, der benyttes. For disse udvalgte højtudtrykte 

gener beregnes RSCU, der ligger til grund for w. Denne beregnede w benyttes til at beregne en 

”Optimal CAI” for Sæt 1. 

Dette gøres for alle sæt.(Sæt 2 udvælges og højt udtrykte gener fra sæt 1, 3, 4 og 5 benyttes til at 

lave en w osv.) 

Disse CAI-værdier sammenholdes derefter med ekspressionsdata for sættet, og ved hjælp af 

Pearson korrelation ses det hvor god den nye CAI er. 

For at tjekke med hele organismen, skal der også beregnes en optimal CAI, hvor de 24, 100 og 250 

højst udtrykte gener i S. cerevisiae udtages, og bruges på hele organismen. 

11

Dicodon CAI 

For at prøve noget nyt, beregnes en ”dicodon CAI”. Denne beregnes som CAI, men i stedet for at se 

på et codon af gangen, ses der på et codon, og det der kommer efter. Dette giver 3721 mulige 

kombinationer, idet der ses bort fra stop codons. 

Ribosomer der foretager proteinsyntese har 3 sites; Acceptor site(A-site), Peptide site(P-site) og 

Exit site(E-site). Når proteinsyntesen forløber kan der kun sidde 2 tRNA i ribosomet, og der vil 

derfor kun være fyldt 2 pladser af gangen. I initieringen er det kun P-site der er fyldt(kun start 

codon ATG), i elongering er både P- og A-site fyldte, og i translokation er E-og P-site optaget. Det 

er kun det første codon der sidder alene. Alle efterfølgende tRNA vil binde mens der sidder et andet 

i forvejen. Derfor er det interessant at undersøge dicodons, og se om der er en interaktion i 

ribosomet for de højtudtrykte gener. 

Ved at beregne dicodon CAI undersøges det, om det har nogen biologisk effekt hvilke codons der 

sidder ved siden af hinanden. 

”dicodon CAI” beregnes, med de 24, 100, 250 højst udtrykte gener i hele organismen, og med alle 

gener, som grundlag for RSCU og dermed w, og formlerne RSCU og w stammer fra, er de samme 

der benyttes til de andre RSCU og w beregninger. 

12

Resultater 

Li og Sharps CAI 

Herunder er vist en figur af de beregnede CAI-værdier, ved at bruge Li og Sharps w. 

Figuren viser fordelingen af CAI værdier, beregnet vha. Li og Sharps w 

For at få bedre overblik over figuren er der lavet en oversigt for CAI-værdierne for S. cerevisiae, 

beregnet ud fra Li og Sharps w. 

Oversigt over de 5545 beregnede CAI-værdier: 

Min. 1st Qu. Median Mean 3rd. Qu. Max. 

0,04629 0,13060 0,15050 0,18160 0,18500 0,92650 

Det ses, både på figuren og ud fra oversigten, at de fleste CAI-værdier er lave. Læg især mærke til 

forskellen mellem den 3. Qu. og max værdien. Dette betyder at S. cerevisiae kun har en lille 

mængde højtudtrykte gener, når CAI beregnes ud fra Li og Sharps w. På figuren ses disse som et 

hak øverst i figuren. Her møder de to fordelinger, de lavt udtrykte og de højtudtrykte gener, 

hinanden. De gener der er vist længst til højre i figuren er de højtudtrykte. 

13

Optimal CAI 

Herunder er der vist en oversigt for CAI-værdierne for sæt 1, der bygger på de højtudtrykte gener i 

sæt 2 til 5, samt en oversigt for CAI for hele organismen, der bygger på de højst udtrykte gener. 

Oversigt over CAI-værdier for sæt 1 og hele S. cerevisiae: 

Udtagne gener\ oversigt Min. 1st Qu. Median Mean 3rd Qu. Max 

24 (for sæt 1) 0,5606 0,7366 0,7583 0,7554 0,7760 0,8632 

100 (for sæt 1) 0,5298 0,7188 0,7420 0,7388 0,7611 0,8515 

250 (for sæt 1) 0,5254 0,7147 0,7374 0,7340 0,7569 0,8464 

24 (for hele organismen) 0,5186 0,7126 0,7343 0,7302 0,7518 0,8823 



Det ses, at de nye CAI-værdier er langt højere end CAI-værdierne beregnet med Li og Sharps w. 

Den laveste CAI værdi ligger på ca. 0,5, altså langt højere end den 3. Qu. for Li og Sharp. Dette 

betyder at denne nye forudsigelse af højtudtrykte gener er dårligere, da de fleste gener bliver spået 

til at være højtudtrykte. Udover det, er de nye max værdier også under Li og Sharps max. 

For hvert sæt(1 til 5) er der beregnet Pearson korrelation, for at se hvor godt de ”Optimale CAI” 

værdier stemmer overens med ekspressionsværdierne, for at se om der er en sammenhæng selvom 

alle gener forudsiges til at være højtudtrykte. 

Pearson korrelation for logaritme til ekspressionsværdier: 

Sæt\antal gener 24 100 250 Sharp 

Sæt 1 0.3122156 0.3044633 0.2869817 0.5782043 

Sæt 2 0.2893278 0.3016406 0.2914669 0.6122943 

Sæt 3 0.3457732 0.3633289 0.3286248 0.6032583 

Sæt 4 0.3210191 0.3062364 0.2997722 0.598784 

Sæt 5 0.2625648 0.2761803 0.2465909 0.5557018 

Alle gener 0.2385502 0.2978506 0.2835487 0.5897041 

14

Pearson korrelation for ikke logaritme til ekspressionsværdier: 

Sæt\antal gener 24 100 250 Sharp 

Sæt 1 0.368084 0.3620599 0.3421436 0.7187798 

Sæt 2 0.345096 0.3572693 0.3489225 0.7454666 

Sæt 3 0.4229868 0.4452385 0.4081458 0.7375635 

Sæt 4 0.3714691 0.3546348 0.3467574 0.7521912 

Sæt 5 0.3304807 0.3392188 0.3076552 0.7265485 

Alle gener 0.2876454 0.3575597 0.3409413 0.7341756 

Som det fremgår af tabellerne, så er der en tendens til at korrelationen for den optimale CAI er 

omkring halvdelen af korrelationen for CAI beregnet ud fra Li og Sharps w, for 24 udtagne gener. 

Herefter stiger optimal CAI korrelationen generelt for 100 gener, og falder igen for 250. Disse 

resultater skyldes, at der ved 24 ikke er udtaget nok højtudtrykte gener, og ved 250 er udtaget så 

mange gener, at det ikke kun er højt udtrykte gener der beregnes CAI for. Det ser også ud til at der 

er bedre korrelation mellem ikke log transformerede ekspressionsværdier og CAI. Det ses igen, at 

de beregnede CAI-værdier er dårligere i forhold til Li og Sharps forudsigelse. 

For at se hvor disse problemer med forudsigelse opstår, ses der på den beregnede w. 

Beregnet w for hele S. cerevisiae, med 24 højtudtrykte gener som grundlag: 

AAA 1.0000000 CAA 1.0000000 GAA 1.0000000 TAA -- 

AAC 0.6694215 CAC 0.5351562 GAC 0.4854246 TAC 0.8051948 

AAG 0.6095662 CAG 0.4660377 GAG 0.4217221 TAG -- 

AAT 1.0000000 CAT 1.0000000 GAT 1.0000000 TAT 1.0000000 

ACA 1.0000000 CCA 1.0000000 GCA 0.8735632 TCA 0.8374165 

ACC 0.5783784 CCC 0.3915663 GCC 0.5632184 TCC 0.6236080 

ACG 0.4135135 CCG 0.2590361 GCG 0.3189655 TCG 0.3808463 

ACT 0.9783784 CCT 0.8222892 GCT 1.0000000 TCT 1.0000000 

AGA 1.0000000 CGA 0.1480519 GGA 0.5203252 TGA -- 

AGC 0.4298441 CGC 0.1766234 GGC 0.4146341 TGC 0.7547170 

AGG 0.4337662 CGG 0.1038961 GGG 0.2764228 TGG 1.0000000 

AGT 0.6280624 CGT 0.4181818 GGT 1.0000000 TGT 1.0000000 

ATA 0.5934256 CTA 0.4395797 GTA 0.5943878 TTA 1.0000000 

ATC 0.4913495 CTC 0.2119089 GTC 0.4311224 TTC 0.6445312 

ATG 1.0000000 CTG 0.3362522 GTG 0.4311224 TTG 0.8283713 

ATT 1.0000000 CTT 0.4658494 GTT 1.0000000 TTT 1.0000000 

15

For at få et bedre overblik over w, laves der en oversigt for w. 

Oversigt for Li og Sharps w: 

Min. 1st Qu. Median Mean 3rd Qu. Max 

0,0010 0,0070 0,1130 0,4164 1.000 1.000 

Oversigt over ny beregnet w(for de 24 højst udtrykte gener): 

Min. 1st Qu. Median Mean 3rd Qu. Max 

0,1039 0,4311 0,6236 0,6689 1.000 1.000 

Ses de beregnede vægte(w) sammen med Li og Sharps beregnede w, ses det, at hvor Li og Sharp 

har 1 er der i de nye beregninger lave værdier, og omvendt. Dette kommer til udtryk i CAI, da CAI 

beregningen bygger på w. Det ses også, at i Li og Sharps w er der mange lave værdier, med en 

median på 0,1130, hvor der i de nye beregninger er en median på 0,62336. Hvis der ses på 

minimums værdien, er der en faktor 100 til forskel, så alt i alt er de nye beregnede vægte langt 

højere end Li og Sharps. 

16

Dicodon CAI 

For at få et overblik over dicodon CAI, er der lavet en oversigt: 

Oversigt over dicodon CAI: 

Udtagne gener\ oversigt Min. 1st Qu. Median Mean 3rd Qu. Max 

24 højst udtrykte 0,2996 0,4693 0,4955 0,4924 0,5182 0,6797 



Alle gener 0,2429 0,5072 0,5389 0,5365 0,5679 0,8277 

I disse CAI-værdier er der større spredning end der var for optimal CAI, men spredningen er stadig 

ikke lige så god som Li og Sharps. Med en mean på omkring 0,5 vil der forudsiges mange 

højtudtrykte gener, hvor der i Li og Sharps kun forudsiges en lille mængde højtudtrykte gener. 

Det ses at Max. stiger løbende fra 24 udtagne gener til alle, og at Min. er faldende fra 24 udtagne 

gener til alle. Dette skyldes manglende værdier for dicodons. Grunden til dette er, der for 24 

udvalgte gener er et stort antal dicodons der ikke optræder, hvilket medfører en w-værdi for det 

dicodon på 0. Dette vil resultere i lave CAI-værdier. For 100 udvalgte gener er der flere dicodons 

der optræder, og endnu flere for de 250 højst udtrykte gener. Når ”dicodon CAI” beregnes med alle 

gener som grundlag, går det ud over de højtudtrykte gener, og dermed mønstret i dicodons, men til 

gengæld er alle codons til stede(hvor det dicodon der optræder færrest gange, er til stede 15 gange) 

Den mængde gener der skal udtages før alle dicodons optræder mindst 1 gang er 730, altså de 730 

gener med den højeste ekspressionsværdi; men ved denne udtagelse vil mængden af ikke 

højtudtrykte gener, der udtages, være så stor, at den nye CAI ikke kan forudsige højtudtrykte gener. 

17

Den beregnede ”dicodon CAI” er blevet sammenlignet med ekspressionsværdierne ved Pearson 

korrelation, for at se om der er en sammenhæng mellem CAI-værdien og ekspressionen af genet. 

Korrelationsværdier for dicodon CAI: 

log\antal gener 24 100 250 5545(alle) 

log til Exp. 0.1817213 0.3170762 0.3081468 0.3201857 

Ikke log 0.2399138 0.3900954 0.3730618 0.3823349 

Som det ses af tabellen, er der en tendens til at korrelationen mellem ekspressionsværdierne og 

dicodon CAI stiger fra 24 til 100 udvalgte gener, hvorefter den falder for 250 udtagne gener. Det 

samme gjorde sig gældende for ”optimal CAI”. Det skal dog bemærkes, at korrelationen stiger for 

alle gener. Dette skyldes, at alle gener bidrager med dicodons, så korrelationen burde stige, da der 

er mange dicodons at beregne RSCU ud fra. Korrelationen er dog stadig så lav, at denne CAI-værdi 

ikke kan benyttes til forudsigelse af højtudtrykte gener. 

Grunden til de høje CAI-værdier skal igen findes i w, der nu er langt større end Li og Sharps 

(størrelsesmæssigt: 64 værdier før mod 3721 nu), men med mange høje værdier. Der er dog 0’er, 

men disse optræder kun fordi det aktuelle dicodon ikke er i de højtudtrykte gener. 

18

Diskussion 

Den optimale CAI forudsiger langt flere højtudtrykte gener end Li og Sharps CAI. Dette skyldes w, 

vis værdier er højere for optimal CAI, end de er oprindeligt. Ses der på korrelationen mellem den 

optimale CAI og de faktiske ekspressionsværdier for gener, ses det, at der er lav korrelation, 

hvorimod der for den oprindelige CAI er høj korrelation med ekspressionen af generne. 

For at forklare dette, er der set på basesammensætningen i de udvalgte gener. 

Basesammensætningen er afgørende for hvilken temperatur organismen kan leve ved. Jo flere A’er 

og T’er, jo højere temperaturer kan den klare, uden at DNA’et smelter. Samtidig skal der ikke være 

for mange, så organismen ikke selv kan smelte sin DNA og derved udrykke gener. 

Basesammensætning for S. cerevisiae: 

Udtagne gener\base A C G T 

24 31,56% 19,15% 20,94% 28,35% 

100 32,40% 19,37% 20,59% 27,64% 

250 32,73% 19,21% 20,38% 27,68% 

Hele organismen 32,79% 19,15% 20,43% 27,63% 

De høje CAI-værdier kan ikke forklares ud fra basesammensætningen i de udtagne gener, da den 

procentvise opdeling er relativ stabil. Der er ikke noget tidspunkt hvor rækkefølgen for den base der 

benyttes mest ændres. (Rækkefælgen er: A, T, G, C) 

For dicodon CAI blev CAI-værdierne også større end for den oprindelige CAI. Her skal grunden 

igen findes i w, der overordnet indeholder mange store værdier, i forhold til Li og Sharps w. 

S. cerevisiae er for ”lille” en organisme at beregne dicodon CAI på, da ikke alle dicodons optræder i 

de højtudtrykte gener. Dette medfører, at grundlaget for RSCU beregningen er ikke optimal, da der 

vil optræde 0’er. Disse overføres til w og giver sig dermed udtrykt i CAI, hvor en lavere CAI 

beregnes for gener med dicodons der ikke optræder i de højtudtrykte gener. Dette betyder igen, at 

korrelationen bliver lav, da nogle dicodons ikke vægtes, og der dermed opstår fejl i CAI. 

19

Figuren viser fordelingen af dicodon CAI-værdier beregnet ud fra 100 højtudtrykte gener 

Det ses på figuren, at der er et lille hak, som der er for Li og Sharps CAI, og dermed en forudsigelse 

af højtudtrykte gener, men da der ikke er så mange punkter efterfølgende, forudsiger denne endnu 

færre højtudtrykte gener. Figuren viser dicodon CAI, der er beregnet ud fra 100 udtagne gener, men 

det samme gjorde sig gældende for de andre udtag. 

20

Konklusion 

Det er blevet undersøgt hvor god Li og Sharps CAI er, og det kan konkluderes at denne er det 

bedste bud til forudsigelse af højtudtrykte gener, da der er en korrelation mellem CAI og 

ekspressionsværdierne på 0,734 (ikke log-transformeret data). Samtidig forudsiges kun en lille del 

af det samlede antal gener til at være højtudtrykte. 

Der er blevet beregnet en ”Optimal” CAI, men denne egner sig ikke til forudsigelse af højtudtrykte 

gener, da der ikke er nogle CAI-værdier under 0,5 og dermed ingen forudsigelse af lavt udtrykte 

gener, og som følge deraf er korrelationen generelt lav. Grunden til dette er w, der næsten er modsat 

af Li og Sharps w. Den indeholder ingen lave værdier, hvorimod den oprindelige næsten ikke har 

nogle høje værdier(når der ses bort fra de værdier der er 1). 

Til slut er der blevet beregnet en dicodon CAI. I denne er der større spredning end i den ”optimale” 

CAI, men forudsigelsen af højtudtrykte gener er stadig ikke god, da mean og median for disse CAIværdier 

ligger over 0,7. Deraf ses det, at over halvdelen af generne forudsiges til at være 

højtudtrykte 

Der er set på basesammensætningen, for at se om denne kunne forklare resultaterne, men 

sammensætningen er næsten konstant for de udtagne gener sammenlignet med hele organismen, så 

dette kan ikke forklare de høje CAI-værdier. 

Det må derfor konkluderes, at hvis man ønsker forudsigelse af højtudtrykte gener, skal man benytte 

Li og Sharps w. 

21

Kilder: 

[1] Sharp PM, Li WH: The codon adaptation index: a measure of directional synonymous 

codon usage bias, and its potential applications. Nucleic Acids Res 1987, 15:1281- 

1295 

[2] Li, C. and Wong, W.H. (2001) _Genome Biology_ *2*, 1-11. 

[3] Li, C. and Wong, W.H. (2001) _Proc. Natl. Acad. Sci USA_ *98*, 31-36. 

[4] Rafael. A. Irizarry, Benjamin M. Bolstad, Francois Collin, Leslie 

M. Cope, Bridget Hobbs and Terence P. Speed (2003), Summaries of 

Affymetrix GeneChip probe level data Nucleic Acids Research 31(4):e15 

[5] Bolstad, B.M., Irizarry R. A., Astrand M., and Speed, T.P. (2003), 

A Comparison of Normalization Methods for High Density 

Oligonucleotide Array Data Based on Bias and Variance. 

Bioinformatics 19(2):185-193 

[6] Irizarry, RA, Hobbs, B, Collin, F, Beazer-Barclay, YD, Antonellis, 

KJ, Scherf, U, Speed, TP (2003) Exploration, Normalization, and 

Summaries of High Density Oligonucleotide Array Probe Level Data. 

Biostatistics .Vol. 4, Number 2: 249-264 

[7] Christopher Workman, Lars Juhl Jensen, Hanne Jarmer, Randy Berka, Laurent 

Gautier, Henrik Bj{\o}rn Nielsen, Hans-Henrik Saxild, Claus Nielsen, S{\o}ren 

Brunak, and Steen Knudsen. A new non-linear normalization method for reducing 

variability in dna microarray experiments. Genome Biology, accepted, 2002 

22

[8] Cheng Li and Wing Hung Wong, Model-based analysis of oligonucleotides arrays: 

model validation, design issues and standard error application. Genome Biology 2001, 

2(8):research0032.1-0032.11 

[9] ftp://ftp.ncbi.nih.gov/genomes/Fungi/Saccharomyces_cerevisiae 

[10] http://www.ncbi.nlm.nih.gov/geo/ 

[11] http://www.bioconductor.org/biocLite.R (ygs98) 

23

Appendiks 

Beregning af CAI ud fra Li og Sharps w: 

wk=0 

CAI.vector

Normalisering af data: 

Sc.data.qsp

Expression Index Calculation 

Liwong 

Sc.ei.liwong

Koble genudtryk med gennavne 

source(“http://www.bioconductor.org/biocLite.R”) 

biocLite(c(“ygs98”))par(mfrow=c(2,2)) 

require(ygs98) 

require(annotate) 

Affy2Orf

Sammenligning mellem Sharps CAI og Exp. Values: 

> names(Sc.gen)

Til Optimal CAI beregning 

kun gener med et stop codon: 

NySc.gen

RSCU for de første 100 i sæt 2-5(efter orden): 

RSCU100

Beregning af CAI 

wk=0 

CAI.vector.100ran1

Udtager 24 højt-udtrykte gener 

RSCUprove


wk=0 

CAI.vector.24ran1

Udtager 250 højt-udtrykte gener 

RSCU250


wk=0 

CAI.vector.250ran1

Sammenligning med Sharps CAI for sæt 1 og Exp. Values: 

Sammen.ShCgen

For alle gener...De 100 højst udtrykte gener: 

rof1


wk=0 

CAI.vector.100

For alle gener...For de 24 højst udtrykte gener: 

rof1


wk=0 

CAI.vector.24

For alle gener...De 250 højst udtrykte gener udvælges: 

rof1


wk=0 

CAI.vector.250

Sammenligning mellem Li og Sharps CAI og beregnet CAI for hele organismen: 

Sammen.SCAIgenALLE

Dicodon CAI: 

Laver all.bis: 

all.nonstop

Sammensætning af gener i dicodons: 

a

Beregning af dicodon w: 

bisw.100

Sammenligning mellem dicodon CAI og Exp. Values: 

Sammen.digen

Undersøgelse af ikke lineære sammenhænge mellem codon ...

Create successful ePaper yourself

Delete template?

Save as template?