Undersøgelse af ikke lineære sammenhænge mellem codon ...
Undersøgelse af ikke lineære sammenhænge mellem codon ... Undersøgelse af ikke lineære sammenhænge mellem codon ...
Baggrund Codon Adaptation Index Codon Adaptation Index(CAI)[1] bygger på ’Relative synonymous codon usage’(RSCU), der er en værdi for hvor tit et codon optræder i forhold til de andre codons(hvis der er nogle), der koder for den samme aminosyre. Sharp og Li beregner dette for 24 højtudtrykte gener i S. cerevisiae, og det er blevet beregnet ud fra følgende formel: RSCU ij = 1 n X ij ni ∑ X ij i j= 1 hvor Xij er antallet af gange det j. codon for den i. aminosyrer optræder i genet, og ni er antallet af alternative codons(mellem 1 og 6). RSCU benyttes til at lave en vægtning af codons, ’Relative Adaptiveness of a codon’(w) ud fra følgende formel: RSCU ij X w ij = = RSCU X hvor RSCUimax og Ximax er RSCU og X-værdien for mest brugte codon for hver aminosyrer. Dette vil give en værdi mellem 0 og 1, hvor 1 er det mest brugte codon for en aminosyre, for organismen, og 0 gives til codons der ikke optræder. Denne vægtning af codons er grundlaget for beregningen af CAI, hvor der for hvert gen beregnes en værdi ud fra formlen: imax 1 CAI = exp L L ∑ k = 1 ij imax ln( w ) hvor wk er w-værdien for det k. codon, og L er længden af genet. Den resulterende CAI-værdi(mellem 0 og 1) kan bruges til at forudsige om et givet gen er højtudtrykt. Jo højere CAI, jo mere sandsynligt er det, at genet er højt udtrykt. k 4
Data For at lave CAI beregninger, skal der bruges information om gensekvensen for S. cerevisiae, samt ekspressionsværdier, der fortæller hvorvidt et givet gen er højt udtrykt. Sekvensdata Sekvensdata for S. cerevisiae er fundet hos NCBI [9]. S. cerevisiae består af 16 kromosomer, og for hvert kromosom er der hentet en fil der hedder ”*.gbk”. Disse filer er læst ind i R, hvor hvert kromosom er blevet delt op i gener. For S. cerevisiae er der 5861 gener. Herefter er generne ”klippet” op i codons. Det blev tjekket for hvert gen, hvorvidt der var mere end et stop codon. De gener der havde mere end et stop codon er blevet taget fra, og er ikke med i de videre beregninger(det drejer sig om 316 gener). Grunden til at de havde mere end et stop codon, kan bl.a. skyldes frame shift, hvorved læserammen forskydes. I de videre beregninger benyttes derfor 5545 gener. Expressionsdata Ekspressionsdata for S. cerevisiae er ligeledes fundet hos NCBI[10]. Data blev fundet, ved at vælge ”Dataset” under ”Query”. Her blev der søgt på GPL90(for at søge direkte på ”Affymetrix GeneChip Yeast Genome S98 Array YG-S98”). Dette giver 131 Items. For at data kan bruges videre blev det tjekket at filerne lå i CEL-format(ubehandlet data). Herefter blev der kigget på GSE, hvor ”Title”, ”Organism(s)” og ”Summary” tjekkes. (”Title” for at sikre at det er S. cerevisiae der arbejdes med, og ikke en mutant eller lignende. ”Organism(s)” for at sikre at det er S. cerevisiae der arbejdes med. ”Summary” for at se hvilket forsøg der ligger bag.) De filer der opfyldte kravene om, at der er S. cerevisiae, og den ikke fx har været udsat for mutation mm., blev downloadet som TAR-fil. 5
- Page 1 and 2: Undersøgelse af ikke lineære samm
- Page 3: Indledning Protein kodes af RNA, de
- Page 7 and 8: Normalisering af data For at kunne
- Page 9 and 10: Geometrisk gennemsnit Herefter bere
- Page 11 and 12: Beregning af optimal CAI Der beregn
- Page 13 and 14: Resultater Li og Sharps CAI Herunde
- Page 15 and 16: Pearson korrelation for ikke logari
- Page 17 and 18: Dicodon CAI For at få et overblik
- Page 19 and 20: Diskussion Den optimale CAI forudsi
- Page 21 and 22: Konklusion Det er blevet undersøgt
- Page 23 and 24: [8] Cheng Li and Wing Hung Wong, Mo
- Page 25 and 26: Normalisering af data: Sc.data.qsp
- Page 27 and 28: Koble genudtryk med gennavne source
- Page 29 and 30: Til Optimal CAI beregning kun gener
- Page 31 and 32: Beregning af CAI wk=0 CAI.vector.10
- Page 33 and 34: Beregning af CAI wk=0 CAI.vector.24
- Page 35 and 36: Beregning af CAI wk=0 CAI.vector.25
- Page 37 and 38: For alle gener...De 100 højst udtr
- Page 39 and 40: For alle gener...For de 24 højst u
- Page 41 and 42: For alle gener...De 250 højst udtr
- Page 43 and 44: Sammenligning mellem Li og Sharps C
- Page 45 and 46: Sammensætning af gener i dicodons:
- Page 47: Sammenligning mellem dicodon CAI og
Data<br />
For at lave CAI beregninger, skal der bruges information om gensekvensen for S. cerevisiae, samt<br />
ekspressionsværdier, der fortæller hvorvidt et givet gen er højt udtrykt.<br />
Sekvensdata<br />
Sekvensdata for S. cerevisiae er fundet hos NCBI [9]. S. cerevisiae består <strong>af</strong> 16 kromosomer, og<br />
for hvert kromosom er der hentet en fil der hedder ”*.gbk”.<br />
Disse filer er læst ind i R, hvor hvert kromosom er blevet delt op i gener. For S. cerevisiae er der<br />
5861 gener. Herefter er generne ”klippet” op i <strong>codon</strong>s. Det blev tjekket for hvert gen, hvorvidt der<br />
var mere end et stop <strong>codon</strong>. De gener der havde mere end et stop <strong>codon</strong> er blevet taget fra, og er<br />
<strong>ikke</strong> med i de videre beregninger(det drejer sig om 316 gener). Grunden til at de havde mere end et<br />
stop <strong>codon</strong>, kan bl.a. skyldes frame shift, hvorved læserammen forskydes. I de videre beregninger<br />
benyttes derfor 5545 gener.<br />
Expressionsdata<br />
Ekspressionsdata for S. cerevisiae er ligeledes fundet hos NCBI[10]. Data blev fundet, ved at vælge<br />
”Dataset” under ”Query”. Her blev der søgt på GPL90(for at søge direkte på ”Affymetrix GeneChip<br />
Yeast Genome S98 Array YG-S98”). Dette giver 131 Items. For at data kan bruges videre blev det<br />
tjekket at filerne lå i CEL-format(ubehandlet data). Herefter blev der kigget på GSE, hvor ”Title”,<br />
”Organism(s)” og ”Summary” tjekkes. (”Title” for at sikre at det er S. cerevisiae der arbejdes med,<br />
og <strong>ikke</strong> en mutant eller lignende. ”Organism(s)” for at sikre at det er S. cerevisiae der arbejdes med.<br />
”Summary” for at se hvilket forsøg der ligger bag.) De filer der opfyldte kravene om, at der er S.<br />
cerevisiae, og den <strong>ikke</strong> fx har været udsat for mutation mm., blev downloadet som TAR-fil.<br />
5