Undersøgelse af ikke lineære sammenhænge mellem codon ...

Undersøgelse af ikke lineære sammenhænge mellem codon ... Undersøgelse af ikke lineære sammenhænge mellem codon ...

17.09.2013 Views

Baggrund Codon Adaptation Index Codon Adaptation Index(CAI)[1] bygger på ’Relative synonymous codon usage’(RSCU), der er en værdi for hvor tit et codon optræder i forhold til de andre codons(hvis der er nogle), der koder for den samme aminosyre. Sharp og Li beregner dette for 24 højtudtrykte gener i S. cerevisiae, og det er blevet beregnet ud fra følgende formel: RSCU ij = 1 n X ij ni ∑ X ij i j= 1 hvor Xij er antallet af gange det j. codon for den i. aminosyrer optræder i genet, og ni er antallet af alternative codons(mellem 1 og 6). RSCU benyttes til at lave en vægtning af codons, ’Relative Adaptiveness of a codon’(w) ud fra følgende formel: RSCU ij X w ij = = RSCU X hvor RSCUimax og Ximax er RSCU og X-værdien for mest brugte codon for hver aminosyrer. Dette vil give en værdi mellem 0 og 1, hvor 1 er det mest brugte codon for en aminosyre, for organismen, og 0 gives til codons der ikke optræder. Denne vægtning af codons er grundlaget for beregningen af CAI, hvor der for hvert gen beregnes en værdi ud fra formlen: imax 1 CAI = exp L L ∑ k = 1 ij imax ln( w ) hvor wk er w-værdien for det k. codon, og L er længden af genet. Den resulterende CAI-værdi(mellem 0 og 1) kan bruges til at forudsige om et givet gen er højtudtrykt. Jo højere CAI, jo mere sandsynligt er det, at genet er højt udtrykt. k 4

Data For at lave CAI beregninger, skal der bruges information om gensekvensen for S. cerevisiae, samt ekspressionsværdier, der fortæller hvorvidt et givet gen er højt udtrykt. Sekvensdata Sekvensdata for S. cerevisiae er fundet hos NCBI [9]. S. cerevisiae består af 16 kromosomer, og for hvert kromosom er der hentet en fil der hedder ”*.gbk”. Disse filer er læst ind i R, hvor hvert kromosom er blevet delt op i gener. For S. cerevisiae er der 5861 gener. Herefter er generne ”klippet” op i codons. Det blev tjekket for hvert gen, hvorvidt der var mere end et stop codon. De gener der havde mere end et stop codon er blevet taget fra, og er ikke med i de videre beregninger(det drejer sig om 316 gener). Grunden til at de havde mere end et stop codon, kan bl.a. skyldes frame shift, hvorved læserammen forskydes. I de videre beregninger benyttes derfor 5545 gener. Expressionsdata Ekspressionsdata for S. cerevisiae er ligeledes fundet hos NCBI[10]. Data blev fundet, ved at vælge ”Dataset” under ”Query”. Her blev der søgt på GPL90(for at søge direkte på ”Affymetrix GeneChip Yeast Genome S98 Array YG-S98”). Dette giver 131 Items. For at data kan bruges videre blev det tjekket at filerne lå i CEL-format(ubehandlet data). Herefter blev der kigget på GSE, hvor ”Title”, ”Organism(s)” og ”Summary” tjekkes. (”Title” for at sikre at det er S. cerevisiae der arbejdes med, og ikke en mutant eller lignende. ”Organism(s)” for at sikre at det er S. cerevisiae der arbejdes med. ”Summary” for at se hvilket forsøg der ligger bag.) De filer der opfyldte kravene om, at der er S. cerevisiae, og den ikke fx har været udsat for mutation mm., blev downloadet som TAR-fil. 5

Data<br />

For at lave CAI beregninger, skal der bruges information om gensekvensen for S. cerevisiae, samt<br />

ekspressionsværdier, der fortæller hvorvidt et givet gen er højt udtrykt.<br />

Sekvensdata<br />

Sekvensdata for S. cerevisiae er fundet hos NCBI [9]. S. cerevisiae består <strong>af</strong> 16 kromosomer, og<br />

for hvert kromosom er der hentet en fil der hedder ”*.gbk”.<br />

Disse filer er læst ind i R, hvor hvert kromosom er blevet delt op i gener. For S. cerevisiae er der<br />

5861 gener. Herefter er generne ”klippet” op i <strong>codon</strong>s. Det blev tjekket for hvert gen, hvorvidt der<br />

var mere end et stop <strong>codon</strong>. De gener der havde mere end et stop <strong>codon</strong> er blevet taget fra, og er<br />

<strong>ikke</strong> med i de videre beregninger(det drejer sig om 316 gener). Grunden til at de havde mere end et<br />

stop <strong>codon</strong>, kan bl.a. skyldes frame shift, hvorved læserammen forskydes. I de videre beregninger<br />

benyttes derfor 5545 gener.<br />

Expressionsdata<br />

Ekspressionsdata for S. cerevisiae er ligeledes fundet hos NCBI[10]. Data blev fundet, ved at vælge<br />

”Dataset” under ”Query”. Her blev der søgt på GPL90(for at søge direkte på ”Affymetrix GeneChip<br />

Yeast Genome S98 Array YG-S98”). Dette giver 131 Items. For at data kan bruges videre blev det<br />

tjekket at filerne lå i CEL-format(ubehandlet data). Herefter blev der kigget på GSE, hvor ”Title”,<br />

”Organism(s)” og ”Summary” tjekkes. (”Title” for at sikre at det er S. cerevisiae der arbejdes med,<br />

og <strong>ikke</strong> en mutant eller lignende. ”Organism(s)” for at sikre at det er S. cerevisiae der arbejdes med.<br />

”Summary” for at se hvilket forsøg der ligger bag.) De filer der opfyldte kravene om, at der er S.<br />

cerevisiae, og den <strong>ikke</strong> fx har været udsat for mutation mm., blev downloadet som TAR-fil.<br />

5

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!