Gene set enrichment

Gene set enrichment Gene set enrichment

cs.put.poznan.pl
from cs.put.poznan.pl More from this publisher

GENE SET ENRICHMENT


Friday,Saturday,a.m. toOpening Sessiona.m. to _______<strong>Gene</strong>ral Session• Deputy Grand Regent (OIC), presiding• InvocationChaplain, ___________________________________• Pledge of AllegianceJunior Regent, ___________________________________• Address of WelcomeJr. Graduate Regent, ____________________________• ResponseSenior Regent, _______________________________• Introductions• Addresses of 5 th , 4 th , 3 rd Top Honor Chapter JGR• Remarks – Official Visitor• Announcements by <strong>Gene</strong>ral Chairman• Roll Call of Chapters• Door PrizestoLunchp.m. to p.m. <strong>Gene</strong>ral Session• Deputy Grand Regent (OIC), presiding• Addresses of 2 nd , 1 st Top Honor Chapter JGR• Address of Current International Officer (if applicable)MARCH OF CHECKS FORMOOSEHART MUSIC DEPARTMENT• Contributions presented by Chapter RepresentativeAccepted by Deputy Grand Regent (OIC)• Presentation and Remarks – Official Visitor• Announcements by <strong>Gene</strong>ral Chairman• Roll Call of Chapters• Door PrizesADDITIONAL MEETINGS - IF APPLICABLE:Day, Date:Day, Date:totoJoint SessionHigher Degree EventConvocation Staff RehearsalState/Provincial Conferral Coordinator shallannounce day, time and place.• Deputy Grand Regent (OIC), presiding• Addresses of Chairmen/Coordinators/Representatives• Presentation and Remarks – Official Visitor• Recognition of Top Sponsors• Association Special Projects Fund March• Announcements by <strong>Gene</strong>ral Chairman• Roll Call of Chapters• Door PrizestoLunchp.m. to p.m. <strong>Gene</strong>ral Session• Deputy Grand Regent (OIC), presiding• Presentation and Remarks- Official Visitor• Endowment Fund March• Announcements by <strong>Gene</strong>ral Chairman• Roll Call of Chapters• Door Prizesp.m.Sunday,a.m.Convention BanquetConvocation• Deputy Grand Regent (OIC), presiding(The Convocation Conferral Staff will participate in theceremony.)• SpeechMARCH OF CHECKS FORMOOSEHAVEN BEAUTY SHOP• Contributions presented by College of Regents ChairmenAccepted by Deputy Grand Regent (OIC)• Address prepared by WOTM Headquarters• Green Cap Conferral• Roll Call of Chapters• Introduction of Current/Past State/Regional/Provincial andInternational Officers• Farewell from Official Visitor• Annual Conference and Convocation Report by <strong>Gene</strong>ralChairman/ Announcements• Changing of Tassel – Outgoing Deputy Grand Regent• Investiture of Incoming Deputy Grand Regent (if applicable)• Address of new Deputy Grand Regent (if applicable)• Adjournment


Grupy genów po klastrowaniuCo zrobić z grupą genów, kiedy już ją znajdziemy?W jaki sposób sprawdzić czy znaleziona grupa niesie ze sobąpewną informację dla nas?Można porównać do predefiniowanych grup genówdostępnych w bazach danych.


Predefiniowane grupy genów• Ścieżki: KEGG, Pathway Interaction Database (cMAP, BioCarta)• <strong>Gene</strong> Ontology• Regiony w genomie• Sygnatury dla klasyfikacji• Grupy genów z opublikowanych wyników• …


KEGG – Kyoto Encyclopedia of <strong>Gene</strong>s and Genomes


KEGG pathway


KEGG – fragment general pathway


<strong>Gene</strong> OntologyKonsorcjum ontologii genów ma na celu ujednolicenie i uspójnienieinformacji z różnych baz danych o genach.Rozpoczęto od współpracy pomiędzy bazami 3 organizmów:Drosophila (FlyBase), Saccharomyces Genome Database (SGD) iMouse Genome Database (MGD) w 1998.cellularcomponentŚrodowiskokomórkowe lubzewnątrzkomórkowemolecularfunctionPodstawowe czynnościproduktów genowych napoziomie cząsteczkowymtakim jak kataliza, czywiązaniebiologicalprocessOperacje albo zbioryzdarzeń ze zdefiniowanympoczątkiem i końcemdotyczący funkcjonowaniażyjących jednostek:komórek, tkanek, organów iorganizmów


Jak ocenić związek pomiędzy grupami genów?• Zwiększona ekspresja genów w pewnej grupie w porównaniu dogenów w innej grupiePrzykład: Czy geny , które odpowiadają za cyklinę D1 pokazująniezwykły wzorzec ekspresji dla ludzkich komórek rakowych?• Różnicowa ekspresja genów nie dla pojedynczego genu, ale dlaspecyficznej grupy genówPrzykład: Czy ścieżka cyklu komórkowego zawiera (wiele) genówulegających zróżnicowanej ekspresji dla komórek rakowych typu A iB ?• Dwie podstawowe strategie do analizy:<strong>Gene</strong> <strong>set</strong> <strong>enrichment</strong> (wzbogacenie grupy genów) i podejścieholistyczne (całościowe)


Testowanie grupowe<strong>Gene</strong> <strong>set</strong> <strong>enrichment</strong>• Sposób: sprawdzenie znaczenia biologicznego dla listy interesującychgenów poprzez analizę nadreprezentacji• Krok 1: analiza pojedynczych genów (np. różnicowa ekspresja)Krok 2: Ocena grupy genów poprzez wzbogacenie (zawsze wporównaniu do wszystkich genów)• Cel: Znaleźć grupy genów, które się składają z wielu interesującychgenów• Fisher-test, GSEAPodejście holistyczne• Sposób: Patrzenie bezpośrednio na grupy genów i pytanie czy sąznaczące biologicznie pod względem różnicowej ekspresji• Globalna analiza różnicowej ekspresji dla grupy genów (bez brania jakoreferencji wszystkich genów)• Cel: Znalezienie grupy genów które zawierają przynajmniej jedeninteresujący gen, lub wiele genów o umiarkowanej różnorodności• Kategoria, globaltest, GlobalAncova


Test hipergeometryczny, czyli test FisheraKrok 1• Wyznacz różnicową ekspresję dla genu (np. p-value dla statystyki t)• Dostosuj p-value do wielokrotnego testowania (FDR) i wybierz odcięcie,które zdefiniuje listę interesujących genówKrok 2KxNN – wszystkie geny na mikromacierzyM – wybrana grupa genów– geny ze zróżnicowaną ekspresją (DE)– geny bez zróżnicowanej ekspresjiMJakie jest prawdopodobieństwoże nasza grupa genów będziewzbogacona w geny zezróżnicowaną ekspresją?


Test hipergeometryczny, czyli test FisheraKrok 1• Wyznacz różnicową ekspresję dla genu (np. p-value dla statystyki t)• Dostosuj p-value do wielokrotnego testowania (FDR) i wybierz odcięcie,które zdefiniuje listę interesujących genówKrok 2• Mając N genów na mikromacierzy i M genów wgrupie, jakie jest prawdopodobieństwo posiadaniax z K interesujących genów w tej grupie?P X = x N, M, K =M N−MZ K−xNKKx• p-value dla grupy genów odpowiadaP(X>=x|N,M,K)NM


Test hipergeometryczny, czyli test Fishera• Hipergeometryczny test jest równoważny testowi Fisheraz grupy genówpoza grupągenówgeny z DE x K – x Kgeny bez DE M – x (N – M) – (K – x) N – KM N – M N• Test Fishera jest podobny do testów opartych na zliczaniu genówbardzo często używanych w analizie ontologii genówJaką można postawić hipotezę H 0 ?


Test hipergeometryczny, czyli test FisheraPrzykład: N = 20000 genów na mikromacierzy, M = 100 genów w grupie,która nas interesuje, K = 300 genów ze zróżnicowaną ekspresjąz grupy poza grupąz DE 3 297 300bez DE 97 19603 19700100 19900 20000p-value = 0.19z grupy poza grupąz DE 6 294 300bez DE 94 19606 19700100 19900 20000p-value = 0.004


Test hipergeometryczny, czyli test FisheraZalety• Nie jest uzależnione tylko od analizy różnicowej ekspresji (np. badaniewzbogacenia w ścieżki z bazy KEGG)• Dla wybranej w jakiś sposób listy interesujących nas genów, ocenabiologicznego tła poprzez test oparty na liczności genów jest jedynymsposobemProblemy• Utrata informacji poprzez dwa oddzielne kroki• Niewielka różnica w ekspresji nie jest widoczna• Podział na geny znaczące (z DE) i nieznaczące jest sztuczny (jaki próg p-value przyjąć?)


<strong>Gene</strong> Set Enrichment Analysis GSEA,analiza wzbogacenia grupy genówKrok 1• Wyznacz różnicową ekspresję dla genu (np. p-value dla statystyki t)• Utwórz ranking genów zgodnie do wyznaczonej miary (np. p-value)Krok 2• Przypisz etykietę A genom należącym do interesującej nas grupygenów, a etykietę B pozostałym genom• Jeśli grupa A jest wzbogacona (enriched) w znaczące geny (DE),wiele z jej genów będzie miało wysoką ocenę w rankingu i będziemyobserwowali je najczęściej na początku rankinguBABAAABBABBAABBABAAABAABBBBBABBABBBBABBBBBBABABABBBBBBBBABABBB..ABBABBBBBBBBBABABBABBBBAABBBBABBABAABBBBBABBBBBABBAABAAABBBBAB..


<strong>Gene</strong> Set Enrichment Analysis GSEA• Dla genów z klasy A dodajn A punktów a dla genów zklasy B odejmij n B punktów• Narysuj skumulowaną sumętych punktów• Czy maksimum M zeskumulowanej sumy jestniezwykle wysokie? – testKolmogorova-Smirnova


GSEAJak bardzo powinna odskoczyć od 0 suma skumulowana(<strong>enrichment</strong> score), aby uznać wynik za znaczący?Można przeprowadzić test permutacji.Jing Shi, Michael G. Walker, „<strong>Gene</strong> Set Enrichment Analysis (GSEA) for Interpreting <strong>Gene</strong> Expression Profiles” CurrentBioinformatics vol.2 no.2, 2007.


GSEA – test permutacjiPermutacja genów• Przestaw etykiety A i B w uporządkowanej liście k razy• Wyznacz maksimum M * ze skumulowanych sum dla każdej permutacji• Wyznacz p-value: ile razy M * było większe od M (dla oryginalnego zbioru),podzielone przez liczbę testówp = # (M * > M)/kPermutacja obiektów• Przestaw etykiety próbek k razy• Jeśli były 2 rodzaje próbek (po kilka powtórzeń), przydziel każdemu zpowtórzeń losowo etykiety z próbki nr. 1 lub 2• Dla każdej z k permutacji:• Wyznacz różnicową ekspresję genów (np. t-test) i utwórz ranking jak w‚Kroku 1’ algorytmu GSEA• Wyznacz skumulowaną sumę M *• Wyznacz p-value jak wyżej


GSEAZalety• Nie jest uzależnione tylko od analizy różnicowej ekspresji (np. badaniewzbogacenia w ścieżki z bazy KEGG)• Wprowadzony ranking genów powoduje, iż nie ma sztucznego odcięciana 2 grupyProblemy• Utrata informacji poprzez dwa oddzielne kroki• Niewielka różnica w ekspresji nie jest widocznaMożna polepszyć tę metodę poprzez wykonanie testy permutacji (dlagenów lub próbek)


Cytoscape i Bingo - prezentacja


Co dalej można zrobić z genami zinteresującej nas grupy?Można przyjrzeć się adnotacji genów i szukać dalszych informacji


Dostępne bazy danych do adnotacji• Bazy literaturowe PubMed, Medline, OMIM• Bazy rzeczywiste Sekwencje nukleotydowe: GenBank Sekwencje aminokwasowe: SwissProt Struktury cząsteczek 3D: PDB• Bazy wiedzy Klasyfikacja genów: Uni<strong>Gene</strong> Ontologia genów: GOBiblioteki motywów: PrositeŚcieżki: KEGG, WIT Czynniki transkrypcyjne: Transfac


PrzykładNameInterleukin 13<strong>Gene</strong> SymbolIl13GenBankaccessionNM_008355Nucleotide sequenceacaagccagcagcctaggccagcccacagttctacagctccctggttctctcactggctctgggcttcatggcgctctgggtgactgcagtcctggctcttgcttgccttggtggtctcgccgccccagggccggtgccaagatctgtgtctctccctctgacccttaaggagcttattgaggagctgagcaacatcacacaagaccagactcccctgtgcaacggcagcatggtatggagtgtggacctggccgctggcgggttctgtgtagccctggattccctgaccaacatctccaattgcaatgccatctacaggacccagaggatattgcatggcctctgtaaccgcaaggcccccactacggtctccagcctcccc…


PrzykładNameInterleukin 13<strong>Gene</strong> SymbolIl13GenBankaccessionNM_008355Uni<strong>Gene</strong>NP_032381Nucleotide sequenceacaagccagcagcctaggccagcccacagttctacagctccctggttctctcactggctctgggcttcatggcgctctgggtgactgcagtcctggctcttgcttgccttggtggtctcgccgccccagggccggtgccaagatctgtgtctctccctctgacccttaaggagcttattgaggagctgagcaacatcacacaagaccagactcccctgtgcaacggcagcatggtatggagtgtggacctggccgctggcgggttctgtgtagccctggattccctgaccaacatctccaattgcaatgccatctacaggacccagaggatattgcatggcctctgtaaccgcaaggcccccactacggtctccagcctcccc…


PrzykładNameInterleukin 13<strong>Gene</strong> SymbolIl13GenBankaccessionNM_008355Uni<strong>Gene</strong>NP_032381Nucleotide sequenceacaagccagcagcctaggccagcccacagttctacagctccctggttctctcactggctctgggcttcatggcgctctgggtgactgcagtcctggctcttgcttgccttggtggtctcgccgccccagggccggtgccaagatctgtgtctctccctctgacccttaaggagcttattgaggagctgagcaacatcacacaagaccagactcccctgtgcaacggcagcatggtatggagtgtggacctggccgctggcgggttctgtgtagccctggattccctgaccaacatctccaattgcaatgccatctacaggacccagaggatattgcatggcctctgtaaccgcaaggcccccactacggtctccagcctcccc…ProtESTProtein/ESTmatchesBLinkProtein/proteinmatchesCDDConserveddomains


PrzykładNameInterleukin 13<strong>Gene</strong> SymbolIl13Chromosome 1131,98 cMMGI (MouseGenomeInformatics)96541GenBankaccessionNM_008355Uni<strong>Gene</strong>NP_032381Nucleotide sequenceacaagccagcagcctaggccagcccacagttctacagctccctggttctctcactggctctgggcttcatggcgctctgggtgactgcagtcctggctcttgcttgccttggtggtctcgccgccccagggccggtgccaagatctgtgtctctccctctgacccttaaggagcttattgaggagctgagcaacatcacacaagaccagactcccctgtgcaacggcagcatggtatggagtgtggacctggccgctggcgggttctgtgtagccctggattccctgaccaacatctccaattgcaatgccatctacaggacccagaggatattgcatggcctctgtaaccgcaaggcccccactacggtctccagcctcccc…ProtESTProtein/ESTmatchesBLinkProtein/proteinmatchesCDDConserveddomains


PrzykładNameInterleukin 13GenBankaccessionNM_008355Nucleotide sequenceacaagccagcagcctaggccagcccacagttctacagctccctggttctctcactggctctgggcttcatggcgctctgggtgactgcagtcctggctcttgcttgccttggtggtctcgccgccccagggccggtgccaagatctgtgtctctccctctgacccttaaggagcttattgaggagctgagcaacatcacacaagaccagactcccctgtgcaacggcagcatggtatggagtgtggacctggccgctggcgggttctgtgtagccctggattccctgaccaacatctccaattgcaatgccatctacaggacccagaggatattgcatggcctctgtaaccgcaaggcccccactacggtctccagcctcccc…<strong>Gene</strong> SymbolIl13Chromosome 1131,98 cMMGI96541Uni<strong>Gene</strong>NP_032381PubMed22829596ProtESTProtein/ESTmatchesBLinkProtein/proteinmatchesCDDConserveddomains


PrzykładNameInterleukin 13GenBankaccessionNM_008355Nucleotide sequenceacaagccagcagcctaggccagcccacagttctacagctccctggttctctcactggctctgggcttcatggcgctctgggtgactgcagtcctggctcttgcttgccttggtggtctcgccgccccagggccggtgccaagatctgtgtctctccctctgacccttaaggagcttattgaggagctgagcaacatcacacaagaccagactcccctgtgcaacggcagcatggtatggagtgtggacctggccgctggcgggttctgtgtagccctggattccctgaccaacatctccaattgcaatgccatctacaggacccagaggatattgcatggcctctgtaaccgcaaggcccccactacggtctccagcctcccc…<strong>Gene</strong> SymbolIl13Chromosome 1131,98 cMMGI96541Uni<strong>Gene</strong>NP_032381PubMed22829596GEO Profiles(<strong>Gene</strong> ExpressionOmnibus)65826808ProtESTProtein/ESTmatchesBLinkProtein/proteinmatchesCDDConserveddomains


PrzykładNameInterleukin 13GenBankaccessionNM_008355Nucleotide sequenceacaagccagcagcctaggccagcccacagttctacagctccctggttctctcactggctctgggcttcatggcgctctgggtgactgcagtcctggctcttgcttgccttggtggtctcgccgccccagggccggtgccaagatctgtgtctctccctctgacccttaaggagcttattgaggagctgagcaacatcacacaagaccagactcccctgtgcaacggcagcatggtatggagtgtggacctggccgctggcgggttctgtgtagccctggattccctgaccaacatctccaattgcaatgccatctacaggacccagaggatattgcatggcctctgtaaccgcaaggcccccactacggtctccagcctcccc…<strong>Gene</strong> SymbolIl13Chromosome 1131,98 cMMGI96541Uni<strong>Gene</strong>NP_032381PubMed22829596GEO Profiles(<strong>Gene</strong> ExpressionOmnibus)65826808UniProtKBP20109ProtESTProtein/ESTmatchesBLinkProtein/proteinmatchesCDDConserveddomains


PrzykładNameInterleukin 13GenBankaccessionNM_008355Nucleotide sequenceacaagccagcagcctaggccagcccacagttctacagctccctggttctctcactggctctgggcttcatggcgctctgggtgactgcagtcctggctcttgcttgccttggtggtctcgccgccccagggccggtgccaagatctgtgtctctccctctgacccttaaggagcttattgaggagctgagcaacatcacacaagaccagactcccctgtgcaacggcagcatggtatggagtgtggacctggccgctggcgggttctgtgtagccctggattccctgaccaacatctccaattgcaatgccatctacaggacccagaggatattgcatggcctctgtaaccgcaaggcccccactacggtctccagcctcccc…<strong>Gene</strong> SymbolIl13Chromosome 1131,98 cMMGI96541Uni<strong>Gene</strong>NP_032381PubMed22829596GEO Profiles(<strong>Gene</strong> ExpressionOmnibus)65826808UniProtKBP20109ProtESTProtein/ESTmatchesBLinkProtein/proteinmatchesCDDConserveddomainsAmiGOIl13


PrzykładNameInterleukin 13GenBankaccessionNM_008355Nucleotide sequenceacaagccagcagcctaggccagcccacagttctacagctccctggttctctcactggctctgggcttcatggcgctctgggtgactgcagtcctggctcttgcttgccttggtggtctcgccgccccagggccggtgccaagatctgtgtctctccctctgacccttaaggagcttattgaggagctgagcaacatcacacaagaccagactcccctgtgcaacggcagcatggtatggagtgtggacctggccgctggcgggttctgtgtagccctggattccctgaccaacatctccaattgcaatgccatctacaggacccagaggatattgcatggcctctgtaaccgcaaggcccccactacggtctccagcctcccc…<strong>Gene</strong> SymbolIl13Chromosome 1131,98 cMMGI96541Uni<strong>Gene</strong>NP_032381PubMed22829596GEO Profiles(<strong>Gene</strong> ExpressionOmnibus)65826808UniProtKBP20109ProtESTProtein/ESTmatchesBLinkProtein/proteinmatchesCDDConserveddomainsAmiGOIl13KEGG pathway16163


MIAMEMinimum Information About a Microarray Experiment


Sześć najważniejszych elementów wg MIAME1. Dane surowe z hybrydyzacji (np. CEL, GPR)2. Końcowo przetworzone dane (znormalizowane) dla całegozbioru hybrydyzacji w eksperymencie (macierz ekspresji genów)3. Niezbędna adnotacja próbki włączając w to eksperymentalnyczynnik i jego dawka4. Projekt eksperymentu włączając w to związki pomiędzy próbkami(które dane surowe odnoszą się do której próbki, którehybrydyzacje są czysto techniczne, które są biologicznymipowtórzeniami)5. Wystarczająca adnotacja macierzy (identyfikatory genów,koordynaty genomiczne, sekwencje oligonukleotydowe)6. Opis protokołu laboratoryjnego i przetworzenia danych (np.metoda normalizacji, itp.)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!