Metody sekvenování DNA a proteinů

Základy bioinformatického 

zpracování dat v proteomice 

Pavel Řehulka 

rehulka@pmfhk.cz

Historie sekvencování DNA 

• nepřímé metody – určení sekvence bílkovin 

• 1970: Ray Wu – 12 nukleových bazí – 3 roky práce 

‣ 1975: Frederic Sanger & A. R. Coulson – Sangerova 

sekvenační metoda 

‣ 1977: Allan Maxam a Walter Gilbert – Maxam-Gilbertova 

sekvenační metoda 

• 1996: Pål Nyrén & Mostafa Ronaghi – pyrosekvencování

Historie sekvencování DNA 

• v dnešní době je rozvoj metod, jež jsou rychlé a pokud 

možno levné, například: 

– 454 sekvencování – paralelní sekvencování DNA na 

streptavidinových substrátech v pikolitrových reaktorech 

– SMRT (Single molecule real-time) – 1 molekula DNA, 1 molekula 

DNA-polymerázy 20 zeptolitrové nádobce, detekce záblesku po 

uvolnění fluorescenčního barviva při navázání značené báze 

– detekce bazí el. proudem při průchodu DNA nanopóry

Maxam-Gilbertova metoda 

• též chemické sekvencování 

• vstupem je jednovláknová DNA značená radioaktivním 

32 

P na 5’ (pomocí polynukleotid kinázy) nebo 3’ konci 

• rozdělení na 4 části, každá štěpena různými 

chemikáliem 

• vzniklé různě dlouhé sekvence DNA ve všech směsích 

jsou separovány gelovou elektroforézou a detekovány 

autoradiografií

Maxam-Gilbertova metoda 

• guanin: destrukce báze 

dimethylsulfátem, destrukce 

glykosidické vazby (zahřívání při 

neutrální pH), destrukce vazby 

(zahřívání při alkalickém pH) 

G A+G C+T C 

• adenin + guanin: destrukce 

báze dimethylsulfátem, 

destrukce glykosidické vazby 

(zahřívání při neutrální pH), 

destrukce vazby (zahřívání při 

kyselém pH) 

• cytosin a thymin: hydrazinolýza 

+ štěpení piperidinem 

• cytosin: hydrazinolýza v 2M 

NaCl + štěpení piperidinem 

5’-TACCGCTTA-3’

Sangerova metoda 

• biochemická metoda, též dideoxy metoda nebo primed 

synthesis 

• pro krátké sekvence jednovláknové DNA 

• využívá se procesu replikace DNA v přítomnosti DNApolymerázy 

• reakční směs: 

– primer 

– DNA-polymeráza 

– radioaktivně značené ( 32 P) 2’-deoxyribonukleosidtrifosfáty 

– 4 směsi obsahující navíc jednotlivé značené ( 32 P) 2’,3’- 

dideoxyribonukleosidtrifosfáty (menší množství, asi 1%)

Sangerova metoda 

• DNA polymeráza při 

náhodném začlenění dideoxy 

analogu nemůže dále 

syntetizovat => vznik 

fragmentu 

• separace těchto fragmentů na 

polyakrylamidovém gelu s 

následnou autoradiografickou 

detekcí 

ddATP ddTTP 

ddCTP ddGTP 

sekvenovaný 

úsek DNA 

3’-GAATTCATTCGCCAT-5’ 

5’-CTTAAGTAAGC 

primer 

syntetizovaný 

fragment 

reakce ve 

směsi s ddCTP 

5’-TAAGCGGTA-3’ 

3’-ATTCGCCAT-5’

Automatizovaná Sangerova metoda 

• místo radioaktivního značení ( 32 P) použita fluorescenční detekce 

• dnes nejpoužívanější metoda 

• reakční směs: 

– fluorescenčně značený primer (4 směsi => 4 značky) 

– DNA-polymeráza 

– 2’-deoxyribonukleosidtrifosfáty 

– jednotlivé směsi obsahují navíc příslušné 2’,3’-dideoxyribonukleosidtrifosfáty 

(menší množství, asi 1%) 

• po reakci se směsi smíchají a probíhá separace kapilární elektroforézou s 

fluorescenční detekcí na konci kapiláry 

A 

T 

C 

G 

T A A G C G G T A

Pyrosekvencování 

• syntéza nových sekvnencí 

DNA s různou detekcí 

nukleotidů bez elektroforézy 

• přítomno spousta enzymů 

– DNA polymeráza 

– ATP sulfuryláza 

– luciferáza 

– apyráza 

• substráty 

– adenosinfosfosulfát 

– luciferin 

• přidávají se nukleotidy 

postupně dATP, dGTP, dCTP, 

dTTP za sebou 

• detekce uvolnění světla (i jeho 

intenzita) po uvolnění 

pyrofosfátu při začlenění 

konkrétního nukleotidu 

• na konci spotřeba ATP 

luciferázou k oxidaci luciferinu 

a degradace přidaného 

nukleotidu 

Apyrase 

Ronaghi M, Genome Res. 2001 Jan;11(1):3-11. 

dATP 

(d)XMP 

Polymerase 

…GATCACCTGAAGTCAGCCCTTG… 

ACTTCAGTCGGGAAC… 

PPi 

ATP 

Light 

ATPsulfurylase 

Luciferase

Shotgun sequencing 

• též nazýváno „shotgun cloning“ 

• metoda sekvencování dlouhých DNA vláken 

• delší sekvence DNA (> 800 bazí) fragmentovány na menší kousky 

restrikčními endonukleázami (nebo mechanicky) 

• DNA-fragmenty jsou vloženy do plazmidů 

– BAC knihovny (= bacterial artificial chromosome library) – pro větší 

fragmenty DNA, ty se pak fragmentují na menší, které jsou vnášeny do 

bakterií v plazmidech 

• plazmidy jsou vneseny do bakterií (obvykle E. coli) 

• bakterie se namnoží a DNA obsahující analyzovaný fragment se po 

vyizolování osekvenuje


• tyto sekvenované kousky jsou pak reasemblovány zpět 

– každá část sekvence musí být osekvenována 5-10x 

Strand 

Původní 

První shotgun sekvence 

Druhá shotgun sekvence 

Rekonstrukce 

Sekvence 

TGCAGATTGGCTGACTGAATGCCTG 

TGCAGATTGGCTGACT--------- 

----------------GAATGCCTG 

TGCAGATTG---------------- 

---------GCTGACTGAATGCCTG 

TGCAGATTGGCTGACTGAATGCCTG 

– problém s repetitivními úseky


http://www.bio.davidson.edu/courses/GENOMICS/method/shotgun.html

cDNA knihovny a ESTs 

• cDNA = complementary DNA nebo též copy DNA 

• cDNA není přímo genomová DNA, ale pochází z přepisu mRNA, 

tzn. kóduje exprimovaný gen (bílkovinu) 

• tkáň -> lýza buněk -> izolace mRNA 

• hybridizace s poly-T primerem 

• vytvoření kopie (= cDNA) pomocí reverzní transkriptázy 

• odbourání mRNA alkalickým roztokem 

• syntéza komplementárního řetězce DNA pomocí DNA-polymerázy 

(spárovaný 3’ konec slouží jako primer) 

• sekvencováním cDNA dostáváme tzv. EST (expressed sequence 

tag) – viz 

http://www.ncbi.nlm.nih.gov/dbEST/index.html

Sekvencování proteinů 

• Určení N-koncové aminokyseliny 

• Edmanova degradace 

• sekvencování peptidů a proteinů pomocí hmotnostní 

spektrometrie

Určení koncové aminokyseliny 

• provádí se pomocí reakce dansyl chloridu s N-koncovou aminoskupinou a 

po hydrolýze peptidu/proteinu se identifikovala N-koncová aminokyselina 

chromatograficky 

• dříve se též provádělo pomocí 1-fluoro-2,4-dinitrobenzenu (F. Sanger, 

sekvenace insulinu) 

pH 8-10 

... 20 deg.C, 1 h 

6M HCl 

... 105 deg.C, 16 h 

... n

Edmanova degradace 

• N-koncová aminoskupina 

peptidu/proteinu reaguje s 

fenylisothiokyanátem v 

bazickém prostředí za 

zvýšené teploty (2,5 % 

PITC ve směsi pyridin/voda 

= 1:1, 30 min, 50 o C) 

Phenylisothiocyanate 

(PITC) 

N-terminus of the protein immobilized 

on a solid support 

PITC coupling 

Cleavage 

• v kyselém prostředí (100 % 

TFA, 10 min, 50 o C) pak 

odštěpuje 5-thiozolinonový 

derivát N-koncové 

aminokyseliny, který je po 

konverzi (1M HCl, 10 min, 

80 o C) na 

fenylthiohydantoinový 

derivát identifikován 

Phenylthiocarbamyl-derivatized protein 

5-Thiozolinone derivative 

N-terminus of the degraded protein 

immobilized on a solid support 

Conversion 

• zbytek peptidu/proteinu je 

podroben dalšímu 

identifikačnímu cyklu 

Phenylthiohydantoin derivative 

next degradation cycle

• dnes plně automatizovaný proces 

Edmanova degradace 

• nutná dostatečné množství čistého proteinu nebo alespoň izolovaného 

na membráně 

• reagenty jsou dodávány v plynné fázi, peptid/protein je ukotven na 

pevném nosiči (kvarterní ammoniová sůl Polybren) 

• citlivost: 1-5 pmol pro více než 20 cyklů (tj. stanovených aminokyselin) 

• délka cyklu: ~ 45 min, tj. asi 3 vzorky/den 

• blokovaný N-terminus proteinu => pracné odstraňování modifikace, ne 

vždy efektivně úspěšné 

• přes spoustu nevýhod ve srovnání s hmotnostní spektrometrií je to 

stále alternativní metoda určování sekvence bílkovin

Hmotnostní spektrometrie (MS) 

• separace nabitých částic na základě poměru jejich hmotnosti a náboje, tj. m/z 

• výsledkem je tzv. hmotnostní spektrum, kde na ose x je vynesena hodnota m/z 

a na ose y intenzita odezvy detektoru, často normalizovaná na nejintenzivnější 

pík v zobrazovaném rozsahu m/z 

Ion Source Mass Analyzer Detector 

+ + 

+ 

+ + + 

+ + + 

+ 

- 

% 

Recorded 

Spectrum 

m/z

Tandemová hmotnostní spektrometrie 

(MS/MS) 

• spojení dvou hmotnostně spektrometrických analýz v prostoru nebo 

čase, oddělených od sebe procesem disociace iontů (většinou kolizí s 

neutrálním plynem) 

• výsledkem je opět hmotnostní spektrum, popisující vztah rodičovského 

iontu a jeho fragmentů 

• důležité pro získání strukturní informace rodičovského iontu 

ionization 

MS 1 

precursor 

ion selection 

fragmentation 

of selected 

precursor 

MS 2 

analysis of 

fragment ions

Trojitý kvadupól – příklad MS/MS přístroje 

ion source 

detector 

+ 

Q0 

ion 

transmission 

Q1 

precursor 

ion 

selection 

Q2 

collision 

cell 

Q3 

fragment 

ion 

analysis

Sekvenace proteinů pomocí MS 

• izolace bílkovin, jejich separace (často gelovou elektroforézou) 

• digesce vhodným enzymem (nebo chemicky) na peptidy 

• směs peptidů buď přímo nebo po separaci (kapalinovou 

chromatografií) analyzujeme pomocí MS/MS 

• vzniklé fragmentové ionty umožňují identifikaci/sekvenaci peptidů, a 

v důsledku i proteinů 

x 4 

y 4 

z 4 

x 3 

z 3 

x 2 

z 2 

x 1 

z 1 

R1 O R2 O R3 O R4 O R5 

H 2 

N C C N C C N C C N C C N C 

H H H H H H H H H 

a 4 

b 4 

c 4 

H + 

COOH

Fragmentové ionty peptidů 

• [N] – hmotnost N- 

koncové skupiny peptidu 

• [C] – hmotnost C- 

koncové skupiny peptidu 

• [M] – součet hmotností 

aminokyselinových 

zbytků obsažených ve 

fragmentovém iontu 

• [e] – hmotnost elektronu 

Ion type Ion mass 

a [N] + [M] – CO – [e] 

b [N] + [M] – [e] 

c [N] + [M] + NH 3 – [e] 

x [C] + [M] + CO – [e] 

y [C] + [M] + H 2 – [e] 

z [C] + [M] – NH – [e] 

d [a-ion] – [part of side chain] 

v [y-ion] – [whole side chain] 

w [z-ion] – [part of side chain] 

immonium ion [M] + H – CO – [e] 

internal y m a n [M] + H – CO – [e] 

internal y m b n [M] + H – [e]

Struktura fragmentových iontů peptidů 

R1 O 

H 2 

N C C N + C 

H 

H 

R2 

H 

R3 

O 

R4 

O + C N C C N C C N C 

H H H H H H 

O 

R5 

COOH 

R1 

H 2 

N C C N C 

H 

O 

H 

HC 

H 

R' 

H + H + 

a 2 

x 3 

d 2 

R1 O R2 

R3 O R4 O R5 

O R4 O 

O + 

+ 

H 3 

N C C N C C N C COOH HN 

C C N C C N 

H H H 

H H H H H 

H H H H 

b 2 

y 3 

v 3 

R1 O R2 O 

R3 O R4 O R5 

R' CH O R4 O 

+ 

NH 3 

C + C N C C N C COOH 

C C N C C N 

H H H 

H H H H H 

H H H H 

H 2 

N C C N C C 

H 2 

N C C N C C 

w 3 

R5 

C COOH 

H 

R5 

H + 

C COOH 

H 

R3 

O 

R4 

H 2 

N C C N + C 

R3 O 

R4 

H 2 

N C C N C C 

O + 

R 

+ 

H 2 

N CH 

H 

H 

y 3 

a 4 

H 

H 

H 

y 3 

b 4 

H 

immonium ion

% Intensity 

Příklad MS/MS spektra peptidu 

• interpretace MS/MS spektra vede k získání částečné 

nebo úplné sekvence peptidu 

Parent mass [M+H] + 1394.744 

112.09 506.24 821.33 

129.10 574.21 871.32 

175.10 576.16 960.36 

211.12 593.26 968.41 

100 

271.13 689.22 1088.44 

y6 

90 

288.17 706.32 1097.44 

80 

314.10 774.30 1184.46 

70 

418.18 777.30 1281.49 

60 

427.17 802.29 1335.55 

50 

435.20 804.30 

intepreted sequence: 

LPSEFDLSAFLR 

2254.5 

40 

30 

y1 

20 

y8 

y10 

b6 

10 

y3 y4 

y5-NH3 

b7 

y2 

y5 

y7 

y11 

R 

y9 

0 

59.0 341.8 624.6 907.4 1190.2 1473.0 

Mass (m/z)

Sekvenční databáze

Od DNA k proteinu (eukaryotní buňka) 

• transkripcí z DNA vzniká 

primární RNA-transkript (exony 

+ introny) 

• modifikace konců primárního 

RNA-transkriptu (čepička RNA 

+ poly(A) konec) 

• vyštěpení intronů v enzymově 

katalyzovaném sestřihu RNA 

=> vznik mRNA 

• transport mRNA z jádra do 

cytoplasmy, kde dochází k 

translaci a vzniku bílkoviny 

• některé procesy probíhají 

současně 

DNA 

cytoplasma 

exony 

primární RNA-transkript 

čepička RNA 

mRNA 

mRNA 

protein 

jádro 

gen 

introny 

transkripce 

přidání 5’-čepičky 

a poly(A) konce 

sestřih 

export do 

cytoplasmy 

translace 

AAAAA 

AAAAA 

AAAAA

Od DNA k proteinu (prokaryotní buňka) 

• jednodušší proces (absence 

jádra) 

• 5’-konec mRNA vzniká iniciací 

transkripce, 3’-konec je určen 

místem terminace genu 

DNA 

gen 

transkripce 

• translace může začít již před 

dokončením transkripce 

mRNA 

translace 

protein

Sekvenční databáze 

• Historie vzniku databází 

• Primární a sekundární databáze 

• Nukleotidové sekvenční databáze 

• Struktura záznamu nukleotidové sekvence 

• Proteinové sekvenční databáze

Historie vzniku databází 

• snaha o zpřístupnění výsledků sekvenačních 

experimentů a vzájemnou výměnu informací 

• 60. léta minulého století – Margaret Dayhoff se 

spolupracovníky – Protein Information Resource (PIR) 

– sbírka proteinových sekvencí známých v té době 

– vyšlo v tištěné podobě jako Atlas of Protein Sequence and 

Structure 

– původně pouze sekvence proteinů z Edmanova sekvenování, 

později přidávány i nukleotidové sekvence 

– byly přidávány i popisy sekvencí => první anotovaná databáze 

– 1972 – nutnost převést do el. podoby (nárůst rozsahu) – 

distribuce na magn. pásku spolu s programy pro analýzu 

vzdálených evolučních příbuzností


• 1982: vzniká DNA sekvenční databáze na European 

Molecular Biology Laboratory (EMBL) v Heidelbergu 

• krátce nato se připojuje GenBank při National Center for 

Biotechnology Information (NCBI) – součást National 

Library of Medicine při National Institutes of Health 

• o několik let později se připojuje i DNA Database of 

Japan (DDBJ) 

• 1988: sjednocení formy spolupráce a formátu dat mezi 

EMBL, GenBank a DDBJ 

• dnes: DDBJ / EMBL / GenBank konsorcium tvořené 

– the National Institute of Genetics in Mishima, Japan 

– the European Bioinformatics Institute (EBI) in Hinxton, UK 

– NCBI in Bethesda, Maryland, USA


• 80. léta minulého století: Amos Bairoch (Ženeva) převedl 

PIR Atlas do formátu podobného EMBL formátu pro 

nukleotidové sekvence a přidal anotace k proteinovým 

sekvencím => PIR+ 

• 1986: distribuce PIR+ na síti US Bionet (předchůdce 

Internetu) – tehdy obsahovala 3900 sekvencí 

• později vzniká SwissProt

Typy databází 

• hlavní úkol databází – zpřístupnit obsažené sekvence 

• primární databáze 

– archivní funkce 

– obsahují experimentální výsledky s částečnou interpretací 

– neobsahují však odborně doplněné popisy mnoha vlastností 

vztahujících se k dané sekvenci 

• sekundární databáze 

– administrované experty 

– někdy též nazývané databáze vzorů (pattern databases) 

– obsahují výsledky analýzy sekvencí z primárních databází 

• kompozitní databáze 

– kombinují různé zdroje primárních databází – není nutno 

procházet každou primární databázi zvlášť

Příklady databází 

primární sekundární kompozitní 

DDBJ PROSITE NRDB 

EMBL Profiles OWL 

GenBank PRINTS 

PIR Pfam 

SwissProt BLOCKS 

TrEMBL IDENTIFY

Nukleotidové sekvenční databáze 

• hlavním zdrojem nukleotidových sekvenčních databází je 

International Nucleotide Sequence Database 

Collaboration – DDBJ / EMBL / GenBank 

– nové sekvence lze zadávat do kterékoliv z těchto databází 

– každá databáze si spravuje pouze sekvence do ní vložené 

– jednou za 24 hodin si databáze navzájem vymění nová data a 

celkový obsah konsorcia je synchronizován (umožněno 

společným formátem dat) 

– primární zdroj sekvenční a biologické informace => mnoho 

databází závisí na správnosti údajů v DDBJ / EMBL / GenBank

Konsorcium DDBJ / EMBL / GenBank 

Entrez 

NIH 

NCBI 

submissions 

updates 

GenBank 

NIG 

submissions 

updates 

CIB 

DDBJ 

EMBL 

EBI 

SRS 

submissions 

updates 

getentry 

EMBL

Vlastnosti databází DDBJ / EMBL / GenBank 

• pokud pro danou nukleotidovou sekvenci není indikována kódující 

sekvence, tak není vytvořen odpovídající záznam v proteinové 

databázi 

– příslušné porovnávání sekvencí vycházející z proteinových sekvencí 

může některé dostupné informace ztratit 

• pokud záznam obsahující kódující sekvenci obsahuje chybu, tak tato 

chyba může být dále propagována mezi databázemi (i pomocí 

odvození dalších sekvencí na základě podobnosti) 

• pokud důležitá vlastnost o proteinové sekvenci není na správném 

místě, tak programy navržené pro jejich získávání ji mohou ztratit

• FASTA formát 

Formáty dat 

– jednoduchý formát pro sekvence 

• flatfile 

– základní jednotka pro informaci o konkrétní sekvenci 

– konkrétní formáty pro jednotlivé databáze se od sebe částečně 

liší 

– ale jeho struktura přesto umožňuje vzájemnou výměnu 

vložených sekvencí mezi databázemi

FASTA formát 

začátek 

nového 

záznamu 

zdrojová 

databáze 

(SwissProt) 

přístupové 

číslo 

UniProt 

ideintifikátor 

krátký popis 

definiční řádek 

>sp|P48598|IF4E_DROME Eukaryotic translation initiation factor 4E OS=Drosophila melanogaster GN=eIF-4E PE=1 SV=1 

MQSDFHRMKNFANPKSMFKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGEPAGN 

TATTTAPAGDDAVRTEHLYKHPLMNVWTLWYLENDRSKSWEDMQNEITSFDTVEDFWSLY 

NHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRWVITLNKSSKTDLDNLWLDVLLCL 

IGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAALEIGHKLRDALRLGRNNSLQYQ 

LHKDTMVKQGSNVKSIYTL 

sekvence proteinu 

(obvykle 60 znaků 

na řádek) 

http://www.uniprot.org/uniprot/P48598.fasta

FASTA formát – více záznamů 

>sp|Q55D85|CAS1_DICDI Cycloartenol synthase OS=Dictyostelium discoideum GN=cas1 PE=1 SV=1 

MTTTNWSLKVDRGRQTWEYSQEKKEATDVDIHLLRLKEPGTHCPEGCDLNRAKTPQQAIK 

KAFQYFSKVQTEDGHWAGDYGGPMFLLPGLVITCYVTGYQLPESTQREIIRYLFNRQNPV 

DGGWGLHIEAHSDIFGTTLQYVSLRLLGVPADHPSVVKARTFLLQNGGATGIPSWGKFWL 

ATLNAYDWNGLNPIPIEFWLLPYNLPIAPGRWWCHCRMVYLPMSYIYAKKTTGPLTDLVK 

DLRREIYCQEYEKINWSEQRNNISKLDMYYEHTSLLNVINGSLNAYEKVHSKWLRDKAID 

YTFDHIRYEDEQTKYIDIGPVNKTVNMLCVWDREGKSPAFYKHADRLKDYLWLSFDGMKM 

QGYNGSQLWDTAFTIQAFMESGIANQFQDCMKLAGHYLDISQVPEDARDMKHYHRHYSKG 

AWPFSTVDHGWPISDCTAEGIKSALALRSLPFIEPISLDRIADGINVLLTLQNGDGGWAS 

YENTRGPKWLEKFNPSEVFQNIMIDYSYVECSAACIQAMSAFRKHAPNHPRIKEINRSIA 

RGVKFIKSIQRQDGSWLGSWGICFTYGTWFGIEGLVASGEPLTSPSIVKACKFLASKQRA 

DGGWGESFKSNVTKEYVQHETSQVVNTGWALLSLMSAKYPDRECIERGIKFLIQRQYPNG 

DFPQESIIGVFNFNCMISYSNYKNIFPLWALSRYNQLYLKSKI 

>sp|Q05581|CAS1_STRCL Clavaminate synthase 1 OS=Streptomyces clavuligerus GN=cs1 PE=1 SV=3 

MTSVDCTAYGPELRALAARLPRTPRADLYAFLDAAHTAAASLPGALATALDTFNAEGSED 

GHLLLRGLPVEADADLPTTPSSTPAPEDRSLLTMEAMLGLVGRRLGLHTGYRELRSGTVY 

HDVYPSPGAHHLSSETSETLLEFHTEMAYHRLQPNYVMLACSRADHERTAATLVASVRKA 

LPLLDERTRARLLDRRMPCCVDVAFRGGVDDPGAIAQVKPLYGDADDPFLGYDRELLAPE 

DPADKEAVAALSKALDEVTEAVYLEPGDLLIVDNFRTTHARTPFSPRWDGKDRWLHRVYI 

RTDRNGQLSGGERAGDVVAFTPRG 

>sp|P18503|CAS4_EPHMU Short-chain collagen C4 (Fragment) OS=Ephydatia muelleri PE=2 SV=1 

DTGPQGPQGVAGPPGIDGAKGDKGECFYPPPPTCPTCPAGPPGAPGPQGAPGAPGAPGLP 

GPAGPQGPKGDKGLPGNDGQPGAPGAPGYDGAKGDKGDTGAPGPQGPKGDQGPKGDQGYK 

GDAGLPGQPGQTGAPGKDGQDGAKGDKGDQGPAGTPGAPGKDGAQGPAGPAGPAGPAGPV 

GPTGPQGPQGPKGDVGPQGPQGAPGSNGAVVYIRWGNNVCPAGETNVYSGHIVESSNAND 

ANGDYLCLPDTHNAYPPQTQNPLLNLKDVTDSYGKTVPCVACLASGRSTVFTFPDNTVCP 

YGWTTEYVGYEAANPKWPGQNLCVDTYFGDKLSQTPCNNLAVIAKGPLNAYSYQPQDVVS 

CVVCSI 

>sp|P02662|CASA1_BOVIN Alpha-S1-casein OS=Bos taurus GN=CSN1S1 PE=1 SV=2 

MKLLILTCLVAVALARPKHPIKHQGLPQEVLNENLLRFFVAPFPEVFGKEKVNELSKDIG 

SESTEDQAMEDIKQMEAESISSSEEIVPNSVEQKHIQKEDVPSERYLGYLEQLLRLKKYK 

VPQLEIVPNSAEERLHSMKEGIHAQQKEPMIGVNQELAYFYPELFRQFYQLDAYPSGAWY 

YVPLGTQYTDAPSFSDIPNPIGSENSEKTTMPLW 

počet 

záznamů 

souhrnné informace 

o databázi 

UniProt/SwissProt 

verze 

databáze 

Time files compressed : Tue Feb 02 19:18:46 2010 

Time files compressed (int) : 1265134726 

Time / date of fasta file : Thu Jan 21 06:55:34 2010 

Time of fasta files (int) : 1264053334 

Number of residues : 180900945 

Number of sequences : 514212 

Number with invalid residues: 0 

Number of sequences too long: 0 

Length of longest sequence : 35213 

Maximum Accession Length : 11 

ftp://ftp.expasy.org/databases/uniprot/knowledgebase/uniprot_sprot.fasta.gz

Flatfile v DDBJ / EMBL / GenBank 

• DDBJ a GenBank flatfiles jsou téměř shodné; používají 

slovní označení oddílů (lépe srozumitelnější) 

• EMBL používá dvojpísmenné prefixy pro jednotlivé řádky 

• obsahují 3 hlavní oddíly: 

– hlavička (header) – informace o celém záznamu 

– vlastnosti (features) – anotace záznamu 

– nukleotidová sekvence 

• poslední řádek končí znaky //

LOCUS DMU54469 2881 bp DNA linear INV 22-FEB-1998 

DEFINITION Drosophila melanogaster eukaryotic initiation factor 4E (eIF4E) 

gene, alternative splice products, complete cds. 

ACCESSION U54469 

VERSION U54469.1 GI:1322283 

KEYWORDS . 

SOURCE Drosophila melanogaster (fruit fly) 

ORGANISM Drosophila melanogaster 

Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; 

Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha; 

Ephydroidea; Drosophilidae; Drosophila; Sophophora. 

REFERENCE 1 (bases 1 to 2881) 

AUTHORS Lavoie,C.A., Lachance,P.E., Sonenberg,N. and Lasko,P. 

TITLE Alternatively spliced transcripts from the Drosophila eIF4E gene 

produce two different Cap-binding proteins 

JOURNAL J. Biol. Chem. 271 (27), 16393-16398 (1996) 

PUBMED 8663200 

REFERENCE 2 (bases 1 to 2881) 

AUTHORS Lasko,P.F. 

TITLE Direct Submission 

JOURNAL Submitted (09-APR-1996) Paul F. Lasko, Biology, McGill University, 

1205 Avenue Docteur Penfield, Montreal, QC H3A 1B1, Canada 

FEATURES 

Location/Qualifiers 

source 1..2881 

/organism="Drosophila melanogaster" 

/mol_type="genomic DNA" 

/db_xref="taxon:7227" 

/chromosome="3" 

/map="67A8-B2" 

gene 80..2881 

/gene="eIF4E" 

mRNA 

join(80..224,892..1458,1550..1920,1986..2085,2317..2404, 

2466..2881) 

/gene="eIF4E" 

/product="eukaryotic initiation factor 4E-I" 

mRNA 

join(80..224,1129..1458,1550..1920,1986..2085,2317..2404, 

2466..2881) 

/gene="eIF4E" 


mRNA 

join(80..224,1550..1920,1986..2085,2317..2404,2466..2881) 

/gene="eIF4E" 

/product="eukaryotic initiation factor 4E-II" 

CDS 

join(201..224,1550..1920,1986..2085,2317..2404,2466..2629) 

/gene="eIF4E" 

/note="Method: conceptual translation with partial peptide 

sequencing" 

/codon_start=1 


/protein_id="AAC03524.1" 

/db_xref="GI:1322284" 

/translation="MVVLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETG 

EPAGNTATTTAPAGDDAVRTEHLYKHPLMNVWTLWYLENDRSKSWEDMQNEITSFDTV 

EDFWSLYNHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRWVITLNKSSKTDLDN 

LWLDVLLCLIGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAALEIGHKLRDAL 

RLGRNNSLQYQLHKDTMVKQGSNVKSIYTL" 

CDS 

join(1402..1458,1550..1920,1986..2085,2317..2404, 

2466..2629) 

/gene="eIF4E" 


sequencing; two alternatively spliced transcripts both 

encode 4E-I" 




/db_xref="GI:1322285" 

/translation="MQSDFHRMKNFANPKSMFKTSAPSTEQGRPEPPTSAAAPAEAKD 

VKPKEDPQETGEPAGNTATTTAPAGDDAVRTEHLYKHPLMNVWTLWYLENDRSKSWED 

MQNEITSFDTVEDFWSLYNHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRWVIT 

LNKSSKTDLDNLWLDVLLCLIGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAA 

LEIGHKLRDALRLGRNNSLQYQLHKDTMVKQGSNVKSIYTL" 

ORIGIN 

1 cggttgcttg ggttttataa catcagtcag tgacaggcat ttccagagtt gccctgttca 

61 acaatcgata gctgcctttg gccaccaaaa tcccaaactt aattaaagaa ttaaataatt 

121 cgaataataa ttaagcccag taacctacgc agcttgagtg cgtaaccgat atctagtata 

Flatfile v GenBank a EMBL - příklad 

ID U54469; SV 1; linear; genomic DNA; STD; INV; 2881 BP. 

XX 

AC U54469; 

XX 

DT 19-MAY-1996 (Rel. 47, Created) 

DT 17-APR-2005 (Rel. 83, Last updated, Version 4) 

XX 

DE Drosophila melanogaster eukaryotic initiation factor 4E (eIF4E) gene, 

DE alternative splice products, complete cds. 

XX 

KW . 

XX 

OS Drosophila melanogaster (fruit fly) 

OC Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; 

OC Endopterygota; Diptera; Brachycera; Muscomorpha; Ephydroidea; 

OC Drosophilidae; Drosophila; Sophophora. 

XX 

RN [1] 

RP 1-2881 

RX DOI; 10.1074/jbc.271.27.16393 

RX PUBMED; 8663200. 

RA Lavoie C.A., Lachance P.E.D., Sonenberg N., Lasko P.; 

RT "Alternatively spliced transcripts from the Drosophila eIF4E gene produce 

RT two different Cap-binding proteins"; 

RL J. Biol. Chem. 271(27):16393-16398(1996). 

XX 

RN [2] 

RP 1-2881 

RA Lasko P.F.; 

RT ; 

RL Submitted (09-APR-1996) to the EMBL/GenBank/DDBJ databases. 

RL Paul F. Lasko, Biology, McGill University, 1205 Avenue Docteur Penfield, 

RL Montreal, QC H3A 1B1, Canada 

XX 

FH Key Location/Qualifiers 

FH 

FT source 1..2881 

FT 

/organism="Drosophila melanogaster" 

FT 

/chromosome="3" 

FT 

/map="67A8-B2" 

FT 

/mol_type="genomic DNA" 

FT 

/db_xref="taxon:7227" 

FT mRNA join(80..224,1129..1458,1550..1920,1986..2085,2317..2404, 

FT 2466..2881) 

FT 

/gene="Eif4E" 

FT 


FT mRNA join(80..224,892..1458,1550..1920,1986..2085,2317..2404, 

FT 2466..2881) 

FT 

/gene="Eif4E" 

FT 


FT mRNA join(80..224,1550..1920,1986..2085,2317..2404,2466..2881) 

FT 

/gene="Eif4E" 

FT 


FT CDS join(201..224,1550..1920,1986..2085,2317..2404,2466..2629) 

FT 


FT 

/gene="Eif4E" 

FT 


FT 


FT 

sequencing." 

FT 

/db_xref="FLYBASE:FBgn0015218" 

FT 

/db_xref="GOA:P48598" 

FT 

/db_xref="InterPro:IPR001040" 

FT 

/db_xref="InterPro:IPR019770" 

FT 

/db_xref="UniProtKB/Swiss-Prot:P48598" 

FT 


FT 

/translation="MVVLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGE

Příklad: 

Eukaryotic translation initiation factor 4E 

• http://www.uniprot.org/uniprot/P48598 

• http://www.ebi.ac.uk/cgibin/expasyfetch?U54469 

• http://www.ncbi.nlm.nih.gov/nuccore/132228 

3?report=genbank 

• http://getentry.ddbj.nig.ac.jp/search/get_ 

entry?accnumber=U54469

Third party annotation (TPA) 

• http://www.ncbi.nlm.nih.gov/genbank/TPA.html 

• databáze navržená pro doplnění experimentálních / 

odvozených informací doplňující / potvrzující informace 

poskytnuté zadavatelem sekvence 

• vhodné pro ostatní vědce nemající přímý přístup k 

databázové položce 

• TPA dataset obsahuje 

– reanotace existujících položek 

– kombinace nových sekvencí a existujících primárních položek 

– anotace archivu a celých genomových shotgun dat 

• př.: http://www.ncbi.nlm.nih.gov/nuccore/28317386

RefSeq projekt 

• http://www.ncbi.nlm.nih.gov/RefSeq/ 

• administrovaná sekundární databáze s cílem poskytnout souhrnný, 

integrovaný a neredundantní soubor sekvencí jak z genomické, tak 

transkripční a proteinové úrovně pro stále se zvyšující počet 

organismů 

• důvodem vzniku byla redundance sekvencí a nejasnost původu 

záznamu (experiment vs. počítačové odvození) 

• referenční sekvenci pro každou molekulu (DNA, mRNA, protein) 

• opět vyžaduje hodně práce biologických odborníků 

• 2+6 formát přístupového kódu 

experimentální 

data 

genomická 

anotace 

genomický 

úsek (DNA) 

NT_123456 

mRNA 

NM_123456 

XM_123456 

modelová mRNA 

protein 

NP_123456 

XP_123456 

modelový protein

EMBL Genome Reviews 

• http://www.ebi.ac.uk/GenomeReviews/ 

• přechází na Ensembl Genomes – 

http://www.ensemblgenomes.org/ 

• opět důvodem překlenutí nedovoleného přístupu pro 

ostatní 

• sekundární databáze pro administrované verze 

kompletních genomových sekvencí v DDBJ / EMBL / 

GenBank 

• přidané další informace např. z UniProt knowledgebase, 

Gene Ontology Annotation (GOA), InterPro a pod. 

• synchronizace s databází UniProt

Proteinové sekvenční databáze 

• vznikly hlavně z důvodu analýzy proteinů kódovaných v 

genomech 

• důležité obzvláště s příchodem aplikací hmotnostní 

spektrometrie v analýze proteinů (mj. analýza 

posttranslačních modifikací) 

• z větší části jsou to sekundární databáze protože 

obsahují sekvence odvozené z DNA databází

Proteinové sekvenční databáze – příklady 

• GenPept 

– jen pro proteinové sekvence odvozené translací nukleotidových 

sekvencí 

– dnes součástí NCBI Protein - http://www.ncbi.nlm.nih.gov/protein 

• RefSeq – obsahuje též proteinové sekvence (pro 

vybrané organismy) 

– http://www.ncbi.nlm.nih.gov/RefSeq/ 

• UniProt – administrovaná databáze; kompozit SwissProt, 

TrEMBL a PIR-PSD – http://www.uniprot.org 

– UniProt Archive (UniParc) – vkládání nových sekvencí 

– UniProt Knowledgebase – rozšíření práce původně prováděné 

se SwissProt, TrEMBL a PIR-PSD s cílem poskytnout expertní 

administrovanou databázi 

– UniRef – UniProt nonredundant reference database – poskytuje 

neredundantní pohled na data v UniParc a UniProt 

Knowledgebase

UniProt Archive (UniParc) 

• podstatná část sekvenčních dat proteinů pochází z přímé sekvenace 

proteinů 

– SwissProt, TrEMBL, PIR-PSD 

– patentové aplikace, PDB 

– IPI, RefSeq, FlyBase, WormBase 

• UniParc dává dohromady tyto zdroje (spolu s přímým zadáváním 

sekvencí) 

• každá sekvence reprezentována pouze jednou svým jedinečným 

identifikačním číslem 

– křížové referencování se zdrojovými databázemi (včetně verze vložené 

sekvence) spolu s označením stavu sekvence 

• UniParc nemá žádné anotace sekvencí – ty jsou dostupné přes 

původní databáze 

• UniParc slouží k párovému přikládání sekvencí 

– UniProt NREF 100, UniProt NREF 90, UniProt NREF 50 (UniRef 

klastry) – seskupovány sekvence bez ohledu na druh

UniProt Knowledgebase 

• SwissProt – manuálně anotované záznamy založené na 

informaci z literatury + administrátorem vyhodnocené 

počítačové analýzy sekvencí 

• TrEMBL – počítačové anotované záznamy čekající na 

manuální anotaci (CDS z EMBL, které nejsou ve 

SwissProt) 

• také PIR-PSD – záznamy, které nejsou ve 

SwissProt/TrEMBL


• Knowledgebase je také neredundantní – snaha popsat 

produkty odvozené z jednoho genu (nebo genů) jednoho 

druhu organismu 

– jedno přístupové číslo spolu s identifikátorama isoforem 

(alternativní sestřihy, proteolytické štěpy, post-translační 

modifikace) 

• rozsáhlé křížové reference => rozbočovač pro 

biomolekulární informace 

– http://www.uniprot.org/uniprot/P10896 

• např. link k SWISS-2DPAGE 

– http://www.expasy.org/ch2d/

UniProt – tok dat z primárních zdrojů 

UniProt NREF 50 



Proteome 

Sets 


SwissProt + TrEMBL 

IPI 

UniProt Archive 

Sub/ 

Peptide 

Data 

DDBJ/ 

EMBL/ 

GenBank 

VEGA 

PDB 

Patent 

Data 

WGS EnsEMBL RefSeq FlyBase WormBase 

Database sources

UniProt 

http://www.uniprot.org/

ID IF4E_DROME Reviewed; 259 AA. 

AC P48598; A4V1Q6; Q95SV3; Q9VSX8; Q9VSX9; 

DT 01-FEB-1996, integrated into UniProtKB/Swiss-Prot. 

DT 01-FEB-1996, sequence version 1. 

DT 20-APR-2010, entry version 89. 

DE RecName: Full=Eukaryotic translation initiation factor 4E; 

DE 

Short=eIF-4E; 

DE 

Short=eIF4E; 

DE AltName: Full=mRNA cap-binding protein; 

DE AltName: Full=eIF-4F 25 kDa subunit; 

GN Name=eIF-4E; Synonyms=Eif4e, EIF4F; ORFNames=CG4035; 

OS Drosophila melanogaster (Fruit fly). 

OC Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; 

OC Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha; 

OC Ephydroidea; Drosophilidae; Drosophila; Sophophora. 

OX NCBI_TaxID=7227; 

RN [1] 

RP NUCLEOTIDE SEQUENCE [MRNA] (ISOFORM I), AND DEVELOPMENTAL STAGE. 

RX MEDLINE=95260867; PubMed=7742371; 

RA Hernandez G., Sierra J.M.; 

RT "Translation initiation factor eIF-4E from Drosophila: cDNA sequence 

RT and expression of the gene."; 

RL Biochim. Biophys. Acta 1261:427-431(1995). 

RN [2] 

RP NUCLEOTIDE SEQUENCE [GENOMIC DNA] (ISOFORMS I AND II), AND FUNCTION. 

RX MEDLINE=96279193; PubMed=8663200; DOI=10.1074/jbc.271.27.16393; 

RA Lavoie C.A., Lachance P.E.D., Sonenberg N., Lasko P.; 

RT "Alternatively spliced transcripts from the Drosophila eIF4E gene 

RT produce two different Cap-binding proteins."; 

RL J. Biol. Chem. 271:16393-16398(1996). 

RN [3] 

RP NUCLEOTIDE SEQUENCE [GENOMIC DNA] (ISOFORMS I AND II), TISSUE 

RP SPECIFICITY, AND DEVELOPMENTAL STAGE. 

RC STRAIN=Canton-S; 

RX MEDLINE=97218035; PubMed=9065696; DOI=10.1007/s004380050365; 

RA Hernandez G., del Corral R., Santoyo J., Campuzano S., Sierra J.M.; 

RT "Localization, structure and expression of the gene for translation 

RT initiation factor eIF-4E from Drosophila melanogaster."; 

RL Mol. Gen. Genet. 253:624-633(1997). 

RN [4] 

RP NUCLEOTIDE SEQUENCE [LARGE SCALE GENOMIC DNA]. 

RC STRAIN=Berkeley; 

RX MEDLINE=20196006; PubMed=10731132; DOI=10.1126/science.287.5461.2185; 

RA Adams M.D., Celniker S.E., Holt R.A., Evans C.A., Gocayne J.D., 

RA Amanatides P.G., Scherer S.E., Li P.W., Hoskins R.A., Galle R.F., 

RA George R.A., Lewis S.E., Richards S., Ashburner M., Henderson S.N., 

RA Sutton G.G., Wortman J.R., Yandell M.D., Zhang Q., Chen L.X., 

RA Brandon R.C., Rogers Y.-H.C., Blazej R.G., Champe M., Pfeiffer B.D., 

RA Wan K.H., Doyle C., Baxter E.G., Helt G., Nelson C.R., Miklos G.L.G., 

RA Abril J.F., Agbayani A., An H.-J., Andrews-Pfannkoch C., Baldwin D., 

RA Ballew R.M., Basu A., Baxendale J., Bayraktaroglu L., Beasley E.M., 

RA Beeson K.Y., Benos P.V., Berman B.P., Bhandari D., Bolshakov S., 

RA Borkova D., Botchan M.R., Bouck J., Brokstein P., Brottier P., 

RA Burtis K.C., Busam D.A., Butler H., Cadieu E., Center A., Chandra I., 

RA Cherry J.M., Cawley S., Dahlke C., Davenport L.B., Davies P., 

Flatfile v UniProtu - příklad 

http://www.uniprot.org/uniprot/P48598

EMBL-EBI 

http://www.ebi.ac.uk/

NCBI – Natinal Center for Biotechnology Information 

http://www.ncbi.nlm.nih.gov/

Nástroje pro práci 

se sekvenčními databázemi

Databázové nástroje 

• ExPASy, UniProt, NCBI – nástroje 

• Mascot – identifikace proteinů 

• BLAST (pro nukleové kyseliny a proteiny)

ExPASy – Expert Protein Analysis Server 

http://www.expasy.org/ 

• odkazy na databáze 

• užitečné programy a nástroje 

• zdroje informací pro výuku a návody k 

použití

ozebereme 

podrobněji 

ExPASy – http://www.expasy.org/

UniProt – http://www.uniprot.org/

UniProt – vyhledávání (Search) 

http://www.uniprot.org/ 

vyhledávání v 

• základních datech 

– Protein Knowledgebase (UniProtKB) 

– Sequence Clusters (UniRef) 

– Sequence Archive (UniParc) 

• doplňující data 

• různé informace

Protein Knowledgebase – UniProtKB 

http://www.uniprot.org/uniprot/?query=trypsin&sort=score

Sequence Clusters (UniRef) 

http://www.uniprot.org/uniref/UniRef50_P35042 

reprezentativní 

sekvence 

64 bílkovin v klastru

UniProt – další nástroje 

• BLAST – párové přiložení sekvencí 

• Align – vícenásobné přiložení sekvencí 

(ClustalW algoritmus) 

• Retrieve – dávkové získání sekvencí na 

základě identifikátorů sekvencí 

• ID Mapping – mapování identifikátorů v 

jednotlivých databázích

UniProt – BLAST 

http://services.uniprot.org/blast/blast-20100427-2222061727 

zadaná 

sekvence 

výsledky 

párového 

přiložení 

detail

UniProt – BLAST (detail) 

http://services.uniprot.org/blastalignment/blast-20100427-2222061727/P06871#align-info0 

informace o 

párovém přiložení 

(ID sekvence, 

skóre, atd.) 

zadaná 

sekvence 

přiřazená 

sekvence z 

databáze 

informace o 

totožnosti, resp. 

podobnosti residuí

UniProt – Align (ClustalW) 

http://services.uniprot.org/clustalw/clustalw2-20100427-2148368204 

zadání 

a 

výsledek

UniProt – Retrieve 

zadané 

identifikátory 

sekvencí 

různé formáty 

výstupních dat

UniProt – ID Mapping 

zadané 

identifikátory 

sekvencí 

identifikační čísla v 

databázi 

EMBL/GenBank/DDBJ 

zadaných čísel

ExPASy – databáze 

http://www.expasy.org/databases.html 

mezi dalšími např. 

• databáze obrazů 2D 

gelů (SWISS- 

2DPAGE) 

• databáze glykanů 

(GlycoSuiteDB)

ExPASy – nástroje 

http://www.expasy.org/tools/ 

mnoho nástrojů, jak na ExPASy serveru, tak mimo, rozdělených do několika 

kategorií: 

• identifikace a charakterizace proteinů 

• identifikace a charakterizace proteinů pomocí peptidového mapování 

• identifikace a charakterizace proteinů pomocí tandemové hmotnostni 

spektrometrie 

• idetifikace pomocí pI, MW nebo aminokyselinového složení 

• ostatní predikční a charakterizační nástroje 

• ostatní proteomické nástroje 

• vyhodnocování MS dat (vizualizace, kvantifikace atd.) 

• analýza dat z 2D gelové elektroforézy 

• překlad DNA sekvencí na proteinové sekvence 

• podobnostní vyhledávání 

• vyhledávání vzorů a profilů 

• predikce post-translačních modifikací, topologií 

• analýza primární, sekundární, terciární a kvarterní struktury proteinů 

• přiložení sekvencí (párové, násobné) 

• fylogenetická analýza aj.

• návrh 

teoretických 

struktur 

glykanů/glykopept 

idů na základě 

experimentálně 

zjištěné 

molekulové 

hmotnosti 

ExPASy – GlycoMod 

http://www.expasy.org/tools/glycomod/ 

vložení 

experimentálních 

hodnot 

nastavení 

parametrů

ExPASy – GlycoMod (příklad výsledku) 

identifikovaný 

N-glykan 

odkaz do 

databáze 

GlycoSuiteDB

ExPASy – predikční proteomické nástroje 

http://www.expasy.org/tools/ 

• ProtParam – fyzikálně-chemické parametry proteinové 

sekvence (aminokyselinové složení, elementární složení, 

izoelektrický bod, extinkční koeficient) 

• Compute pI/Mw – spočítá hodnotu pI a molekulové 

hmotnosti jak pro sekvence v UniProt (pomocí ID 

sekvence), tak pro uževatelem zadanou sekvenci 

• GlycanMass – spočítá hmotnost oligosacharidové struktury 

• PeptideCutter – predikce štěpných míst v proteinové 

sekvenci 

• PeptideMass – spočítá teoretické hmotnosti peptidů (spolu 

s posttranslačními modifikacemi uvedenými v databázi) po 

digesci proteinu 

• IsotopIdent – predikce teoretické isotopové distribuce 

peptidy, proteinu polynukleotidu nebo jiné chem látky

ExPASy – ProtParam 

http://www.expasy.org/tools/protparam.html 

vložení ID 

proteinu nebo 

sekvence 

část výpisu 

výsledných 

hodnot 

pro výpočet hodnot pI/Mw lze analogicky 

použít program Compute pI/Mw 

(http://www.expasy.org/tools/pi_tool.html)

ExPASy – PeptideMass 

http://www.expasy.org/tools/peptide-mass.html 

vložení ID 

proteinu nebo 

sekvence 

část výpisu 

výsledných 

hodnot 

zadání 

parametrů 

teoretického 

štěpení

Nástroje pro identifikaci proteinů pomocí MS dat 

• Mascot – databázové vyhledávaní a identifikace 

proteinů s MS a/nebo MSMS daty (Matrix Science 

Ltd., London) 

• ProFound – databázové vyhledávaní a identifikace 

proteinů s MS daty (MSMS data – program X! 

Tandem a X! Hunter); též predikční nástroje (The 

Rockefeller University, New York) 

• ProteinProspector – databázové vyhledávání + 

predikční nástroje pro identifikaci proteinů z MS a 

MSMS dat (University of California, San Francisco)

Mascot 

http://www.matrixscience.com/search_form_select.html 

tři nástroje pro vyhledávání: 

• Peptide Mass Fingerprinting 

– nástroj pro prohledávání 

databáze na základě 

metody otisku prstu (MS 

data) 

• Sequence Query – 

vyhledávání na základě 

MSMS dat nebo jejich 

částečné interpretace 

• MS/MS Ion Search – 

prohledávání databází s 

MSMS daty (vetší soubory)

% Intensity 

Typické MS spektrum peptidové směsi po 

digesci v gelu 

100 

90 

80 

70 

1413.7413 

1.8E+4 

60 

925.5274 

50 

40 

30 

20 

1137.6631 

1144.5979 1653.8485 

1809.9584 

1370.7491 

10 

1156.5598 1525.6969 

842.5183 1320.6467 1688.9136 

2212.1663 

2529.3186 

989.5385 1159.6367 1494.7484 

825.0976 1323.6652 1759.9321 1992.9878 2383.9719 

2225.1443 2705.1929 

0 

800 1240 1680 2120 2560 3000 

Mass (m/z)

http://www.matrixscience.com/cgi/search_form.pl?FORMVER=2&SEARCH=PMF

% Intensity 

100 

90 

Typické MSMS spektrum vybraného 

peptidového prekurzoru 

86.0977 

136.0765 

3249.6 

80 

70 

60 

50 

101.0736 

40 

30 

20 

10 

646.3367 

201.1172 

112.0810 223.1073 

288.1706 379.1458 

88.0840 251.0971 

348.1409 

492.2104 

183.1031 439.1602 526.1935 639.2639 

775.4004 

922.4632 

1213.5955 

0 

60 340 620 900 1180 1460 

Mass (m/z)

http://www.matrixscience.com/cgi/search_form.pl?FORMVER=2&SEARCH=SQ

BLAST – Basic Local Alignment Search Tool 

at NCBI (http://blast.ncbi.nlm.nih.gov/) 

porovnávání na 

úrovni nukleových 

kyselin 

porovnání na 

základě sekvencí 

proteinů 

další nástroje pro 

analýzy sekvencí

BLAST at NCBI (http://blast.ncbi.nlm.nih.gov/) 

zadávací formulář 

výběr databáze 

volba algoritmu

BLAST at NCBI (http://blast.ncbi.nlm.nih.gov/) 

sekvence z databáze 

přiřazená k dotazu

Příklady ke cvičení

Informace o vzorku 

• protein byl separován pomocí gelové elektroforézy 

• redukce disulfidických můstků byla provedena 

dithiothreitolem, následná modifikace cysteinů byla 

provedena jodacetamidem (= „Carbamidomethyl (C)“) 

• enzymatické štěpení bylo provedeno v gelu pomocí 

trypsinu (štěpí za lysinem (K) a argininem (R), 

nenásleduje-li prolin) 

• hmotnostní analýza byla provedena na hmotnostním 

spektrometru typu MALDI-TOF/TOF 

• pro databázové vyhledávání použijte jeden z nástrojů 

http://www.matrixscience.com/search_form_select.html 

http://prospector.ucsf.edu/prospector/mshome.htm

Nastavení databázového vyhledávání (Mascot) 

• database: SwissProt 

• enzyme: Trypsin 

• missed cleavages: 1 

• taxonomy: All entries 

• fixed modifications: Carbamidomethyl (C) 

• variable modifications: Gln->pyro-Glu (N-term Q) 

Oxidation (M) 

Acetyl (Protein N-term) 

• peptide tolerance: 30 ppm 

– MSMS tolerance: 300 mmu 

• mass values: [M+H] + Monoisotopic

zde doplnit 

svoje 

m/z hodnoty

Nastavení databázového vyhledávání (Protein Prospector) 

• database: SwissProt 

• digest: Trypsin 

• max missed cleavages: 1 

• taxonomy: All 

• fixed modifications: Carbamidomethyl (C) 

• variable modifications: Peptide N-terminal Gln to pyroGlu 

Oxidation of M 

Protein N-terminus Acetylated 

• peptide tolerance: 30 ppm 

– MSMS tolerance: 300 mmu 

• mass are: monoisotopic

zde doplnit 

svoje 

m/z hodnoty

% Intensity 

Příklad MS spektra 1 

100 

90 

80 

70 

60 

50 

40 

30 

20 

10 

915. 462 

1254. 727 

1326. 763 

1529. 795 

1694. 917 

4800 Ref l ect or Spec #1 M C=>BC[ BP = 1326. 8, 4573] 

získaný seznam píků 

hmotnostní spektrum 

842. 515 

2366. 275 

1170. 657 

2518. 023 

2054. 866 

2264. 945 

2723. 231 

870. 543 

998. 551 

1275. 575 1511. 791 

2082. 931 2280. 989 

1358. 747 2532. 039 

807. 405 938. 484 1184. 566 

1545. 799 1716. 890 

2739. 230 

2901. 286 3220. 519 

0 

800 1450 2100 2750 3400 4050 

Mass (m/z ) 

2707. 224 

817.418 

870.544 

915.461 

952.517 

998.551 

1169.646 

1170.658 

1254.726 

1266.721 

1275.575 

1282.737 

1286.720 

1326.762 

1340.752 

1358.748 

1368.781 

1383.783 

1404.688 

1463.900 

1511.791 

1529.795 

1545.801 

1566.827 

1694.915 

2054.867 

2092.827 

2173.933 

2239.145 

2264.945 

2278.960 

2279.997 

2280.987 

2366.275 

2427.017 

2518.023 

2532.038 

2616.210 

2707.224 

2720.217 

2721.235 

2722.235 

2723.231 

2737.223 

2807.314 

4573.3

Výsledky vyhledávání z programu MS-Fit 

nejvyšší 

skóre 


protein 

exp. vs. 

teor. m/z 

hodnoty 

identifikované peptidové sekvence 

nástroje pro další analýzu nezidentifikovaných m/z hodnot

Výsledky vyhledávání z programu Mascot PMF 

hity mimo zelený rámeček 

jsou významné 

nejvyšší 

skóre 


protein 

parametry 

vyhledávání

Detailní popis výsledku vyhledávaní v programu Mascot PMF (I) 

skóre a „expect“ hodnota 

molekulová hmotnost a pI 

sekvenční pokrytí

Detailní popis výsledku vyhledávaní v programu Mascot PMF (II) 

exp. vs. 

teor. m/z 

hodnoty 

identifikované 

peptidové 

sekvence 

rozložení 


chyb 

flat file záznamu 

proteinu v databázi

% Intensity 

100 

90 

80 

70 

60 

50 

Příklad MSMS spektra s označenými ionty 

MS/MS Precursor 1694.915 

y13 

ion type 

m/z 

147.11 y1 

246.15 y2 

359.26 y3 

487.33 y4 

574.36 y5 

673.41 y6 

801.49 y7 

930.54 y8 

1077.58 y9 

1178.64 y10 

1235.65 y11 

1322.67 y12 

1419.74 y13 

1566.85 y14 

40 

y7 

30 

y14 

20 

10 

y1 

y2 

y3 

y4 

y5 

y6 

y8 

y9 

y11 

y12 

0 

10 350 690 1030 1370 1710 

Mass (m/z)

ion type m/z difference AA alt. AA 

y1 147.11 

y2 246.15 99.04 V 

y3 359.26 113.11 L I 

y4 487.33 128.07 Q K 

y5 574.36 87.03 S 

y6 673.41 99.05 V 

y7 801.49 128.08 Q K 

y8 930.54 129.05 E 

y9 1077.58 147.04 F 

y10 1178.64 101.06 T 

y11 1235.65 57.01 G 

y12 1322.67 87.02 S 

y13 1419.74 97.07 P 

y14 1566.85 147.11 F 

odečítáme odspodu 

(protože y-ionty) 

sequence 

FPSGTFEQVSQLV

ozkliknout 

informace o parametrech 

vyhledávání

http://www.uniprot.org/uniprot/P02774 

zde další informace a nástroje

Program mMass (http://www.mmass.org/) 

Ke stažení (Windows, Mac OSX, Linux) na adrese http://www.mmass.org/download/

Zpracování spektra v programu mMass 

detekce píků manuálně 

nebo automaticky

Zadání získaných dat do programu Mascot PMF

Detail dialogového okna programu Mascot PMF

Výsledek vyhledávání v programu Mascot PMF 

(zadáno z programu mMass)

Detailní popis výsledku vyhledávaní v programu Mascot PMF (I) 

skóre a „expect“ hodnota 

molekulová hmotnost a pI 

sekvenční pokrytí 

(zde je vyšší oproti 43%)

Detailní popis výsledku vyhledávaní v programu Mascot PMF (II) 

exp. vs. 

teor. m/z 

hodnoty 

identifikované 

peptidové 

sekvence 

rozložení 


chyb 

flat file záznamu 

proteinu v databázi

Vyhledávací program PROFOUND (pro PMF)

Detail dialogového okna programu PROFOUND

Detail dialogového okna programu MS-Fit v programu mMass

nejvyšší 

skóre 

Výsledky vyhledávání z programu MS-Fit 


protein 

identifikované peptidové sekvence 

exp. vs. 

teor. m/z 

hodnoty 

nástroje pro další analýzu nezidentifikovaných m/z hodnot

Automatický výběr píků v programu mMass

Výsledek vyhledávání v programu Mascot PMF 

(zadáno z programu mMass po automatickém výběru píků) 

mnoho falešných píků 

snižují skóre 

sekvenční pokrytí 

docela dobré

Metody sekvenování DNA a proteinů

Create successful ePaper yourself

Delete template?

Save as template?