Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Základy bioinformatického<br />
zpracování dat v proteomice<br />
Pavel Řehulka<br />
rehulka@pmfhk.cz
Historie sekvencování <strong>DNA</strong><br />
• nepřímé metody – určení sekvence bílkovin<br />
• 1970: Ray Wu – 12 nukleových bazí – 3 roky práce<br />
‣ 1975: Frederic Sanger & A. R. Coulson – Sangerova<br />
sekvenační metoda<br />
‣ 1977: Allan Maxam a Walter Gilbert – Maxam-Gilbertova<br />
sekvenační metoda<br />
• 1996: Pål Nyrén & Mostafa Ronaghi – pyrosekvencování
Historie sekvencování <strong>DNA</strong><br />
• v dnešní době je rozvoj metod, jež jsou rychlé a pokud<br />
možno levné, například:<br />
– 454 sekvencování – paralelní sekvencování <strong>DNA</strong> na<br />
streptavidinových substrátech v pikolitrových reaktorech<br />
– SMRT (Single molecule real-time) – 1 molekula <strong>DNA</strong>, 1 molekula<br />
<strong>DNA</strong>-polymerázy 20 zeptolitrové nádobce, detekce záblesku po<br />
uvolnění fluorescenčního barviva při navázání značené báze<br />
– detekce bazí el. proudem při průchodu <strong>DNA</strong> nanopóry
Maxam-Gilbertova metoda<br />
• též chemické sekvencování<br />
• vstupem je jednovláknová <strong>DNA</strong> značená radioaktivním<br />
32<br />
P na 5’ (pomocí polynukleotid kinázy) nebo 3’ konci<br />
• rozdělení na 4 části, každá štěpena různými<br />
chemikáliem<br />
• vzniklé různě dlouhé sekvence <strong>DNA</strong> ve všech směsích<br />
jsou separovány gelovou elektroforézou a detekovány<br />
autoradiografií
Maxam-Gilbertova metoda<br />
• guanin: destrukce báze<br />
dimethylsulfátem, destrukce<br />
glykosidické vazby (zahřívání při<br />
neutrální pH), destrukce vazby<br />
(zahřívání při alkalickém pH)<br />
G A+G C+T C<br />
• adenin + guanin: destrukce<br />
báze dimethylsulfátem,<br />
destrukce glykosidické vazby<br />
(zahřívání při neutrální pH),<br />
destrukce vazby (zahřívání při<br />
kyselém pH)<br />
• cytosin a thymin: hydrazinolýza<br />
+ štěpení piperidinem<br />
• cytosin: hydrazinolýza v 2M<br />
NaCl + štěpení piperidinem<br />
5’-TACCGCTTA-3’
Sangerova metoda<br />
• biochemická metoda, též dideoxy metoda nebo primed<br />
synthesis<br />
• pro krátké sekvence jednovláknové <strong>DNA</strong><br />
• využívá se procesu replikace <strong>DNA</strong> v přítomnosti <strong>DNA</strong>polymerázy<br />
• reakční směs:<br />
– primer<br />
– <strong>DNA</strong>-polymeráza<br />
– radioaktivně značené ( 32 P) 2’-deoxyribonukleosidtrifosfáty<br />
– 4 směsi obsahující navíc jednotlivé značené ( 32 P) 2’,3’-<br />
dideoxyribonukleosidtrifosfáty (menší množství, asi 1%)
Sangerova metoda<br />
• <strong>DNA</strong> polymeráza při<br />
náhodném začlenění dideoxy<br />
analogu nemůže dále<br />
syntetizovat => vznik<br />
fragmentu<br />
• separace těchto fragmentů na<br />
polyakrylamidovém gelu s<br />
následnou autoradiografickou<br />
detekcí<br />
ddATP ddTTP<br />
ddCTP ddGTP<br />
sekvenovaný<br />
úsek <strong>DNA</strong><br />
3’-GAATTCATTCGCCAT-5’<br />
5’-CTTAAGTAAGC<br />
primer<br />
syntetizovaný<br />
fragment<br />
reakce ve<br />
směsi s ddCTP<br />
5’-TAAGCGGTA-3’<br />
3’-ATTCGCCAT-5’
Automatizovaná Sangerova metoda<br />
• místo radioaktivního značení ( 32 P) použita fluorescenční detekce<br />
• dnes nejpoužívanější metoda<br />
• reakční směs:<br />
– fluorescenčně značený primer (4 směsi => 4 značky)<br />
– <strong>DNA</strong>-polymeráza<br />
– 2’-deoxyribonukleosidtrifosfáty<br />
– jednotlivé směsi obsahují navíc příslušné 2’,3’-dideoxyribonukleosidtrifosfáty<br />
(menší množství, asi 1%)<br />
• po reakci se směsi smíchají a probíhá separace kapilární elektroforézou s<br />
fluorescenční detekcí na konci kapiláry<br />
A<br />
T<br />
C<br />
G<br />
T A A G C G G T A
Pyrosekvencování<br />
• syntéza nových sekvnencí<br />
<strong>DNA</strong> s různou detekcí<br />
nukleotidů bez elektroforézy<br />
• přítomno spousta enzymů<br />
– <strong>DNA</strong> polymeráza<br />
– ATP sulfuryláza<br />
– luciferáza<br />
– apyráza<br />
• substráty<br />
– adenosinfosfosulfát<br />
– luciferin<br />
• přidávají se nukleotidy<br />
postupně dATP, dGTP, dCTP,<br />
dTTP za sebou<br />
• detekce uvolnění světla (i jeho<br />
intenzita) po uvolnění<br />
pyrofosfátu při začlenění<br />
konkrétního nukleotidu<br />
• na konci spotřeba ATP<br />
luciferázou k oxidaci luciferinu<br />
a degradace přidaného<br />
nukleotidu<br />
Apyrase<br />
Ronaghi M, Genome Res. 2001 Jan;11(1):3-11.<br />
dATP<br />
(d)XMP<br />
Polymerase<br />
…GATCACCTGAAGTCAGCCCTTG…<br />
ACTTCAGTCGGGAAC…<br />
PPi<br />
ATP<br />
Light<br />
ATPsulfurylase<br />
Luciferase
Shotgun sequencing<br />
• též nazýváno „shotgun cloning“<br />
• metoda sekvencování dlouhých <strong>DNA</strong> vláken<br />
• delší sekvence <strong>DNA</strong> (> 800 bazí) fragmentovány na menší kousky<br />
restrikčními endonukleázami (nebo mechanicky)<br />
• <strong>DNA</strong>-fragmenty jsou vloženy do plazmidů<br />
– BAC knihovny (= bacterial artificial chromosome library) – pro větší<br />
fragmenty <strong>DNA</strong>, ty se pak fragmentují na menší, které jsou vnášeny do<br />
bakterií v plazmidech<br />
• plazmidy jsou vneseny do bakterií (obvykle E. coli)<br />
• bakterie se namnoží a <strong>DNA</strong> obsahující analyzovaný fragment se po<br />
vyizolování osekvenuje
Shotgun sequencing<br />
• tyto sekvenované kousky jsou pak reasemblovány zpět<br />
– každá část sekvence musí být osekvenována 5-10x<br />
Strand<br />
Původní<br />
První shotgun sekvence<br />
Druhá shotgun sekvence<br />
Rekonstrukce<br />
Sekvence<br />
TGCAGATTGGCTGACTGAATGCCTG<br />
TGCAGATTGGCTGACT---------<br />
----------------GAATGCCTG<br />
TGCAGATTG----------------<br />
---------GCTGACTGAATGCCTG<br />
TGCAGATTGGCTGACTGAATGCCTG<br />
– problém s repetitivními úseky
Shotgun sequencing<br />
http://www.bio.davidson.edu/courses/GENOMICS/method/shotgun.html
c<strong>DNA</strong> knihovny a ESTs<br />
• c<strong>DNA</strong> = complementary <strong>DNA</strong> nebo též copy <strong>DNA</strong><br />
• c<strong>DNA</strong> není přímo genomová <strong>DNA</strong>, ale pochází z přepisu mRNA,<br />
tzn. kóduje exprimovaný gen (bílkovinu)<br />
• tkáň -> lýza buněk -> izolace mRNA<br />
• hybridizace s poly-T primerem<br />
• vytvoření kopie (= c<strong>DNA</strong>) pomocí reverzní transkriptázy<br />
• odbourání mRNA alkalickým roztokem<br />
• syntéza komplementárního řetězce <strong>DNA</strong> pomocí <strong>DNA</strong>-polymerázy<br />
(spárovaný 3’ konec slouží jako primer)<br />
• sekvencováním c<strong>DNA</strong> dostáváme tzv. EST (expressed sequence<br />
tag) – viz<br />
http://www.ncbi.nlm.nih.gov/dbEST/index.html
Sekvencování <strong>proteinů</strong><br />
• Určení N-koncové aminokyseliny<br />
• Edmanova degradace<br />
• sekvencování peptidů a <strong>proteinů</strong> pomocí hmotnostní<br />
spektrometrie
Určení koncové aminokyseliny<br />
• provádí se pomocí reakce dansyl chloridu s N-koncovou aminoskupinou a<br />
po hydrolýze peptidu/proteinu se identifikovala N-koncová aminokyselina<br />
chromatograficky<br />
• dříve se též provádělo pomocí 1-fluoro-2,4-dinitrobenzenu (F. Sanger,<br />
sekvenace insulinu)<br />
pH 8-10<br />
... 20 deg.C, 1 h<br />
6M HCl<br />
... 105 deg.C, 16 h<br />
... n
Edmanova degradace<br />
• N-koncová aminoskupina<br />
peptidu/proteinu reaguje s<br />
fenylisothiokyanátem v<br />
bazickém prostředí za<br />
zvýšené teploty (2,5 %<br />
PITC ve směsi pyridin/voda<br />
= 1:1, 30 min, 50 o C)<br />
Phenylisothiocyanate<br />
(PITC)<br />
N-terminus of the protein immobilized<br />
on a solid support<br />
PITC coupling<br />
Cleavage<br />
• v kyselém prostředí (100 %<br />
TFA, 10 min, 50 o C) pak<br />
odštěpuje 5-thiozolinonový<br />
derivát N-koncové<br />
aminokyseliny, který je po<br />
konverzi (1M HCl, 10 min,<br />
80 o C) na<br />
fenylthiohydantoinový<br />
derivát identifikován<br />
Phenylthiocarbamyl-derivatized protein<br />
5-Thiozolinone derivative<br />
N-terminus of the degraded protein<br />
immobilized on a solid support<br />
Conversion<br />
• zbytek peptidu/proteinu je<br />
podroben dalšímu<br />
identifikačnímu cyklu<br />
Phenylthiohydantoin derivative<br />
next degradation cycle
• dnes plně automatizovaný proces<br />
Edmanova degradace<br />
• nutná dostatečné množství čistého proteinu nebo alespoň izolovaného<br />
na membráně<br />
• reagenty jsou dodávány v plynné fázi, peptid/protein je ukotven na<br />
pevném nosiči (kvarterní ammoniová sůl Polybren)<br />
• citlivost: 1-5 pmol pro více než 20 cyklů (tj. stanovených aminokyselin)<br />
• délka cyklu: ~ 45 min, tj. asi 3 vzorky/den<br />
• blokovaný N-terminus proteinu => pracné odstraňování modifikace, ne<br />
vždy efektivně úspěšné<br />
• přes spoustu nevýhod ve srovnání s hmotnostní spektrometrií je to<br />
stále alternativní metoda určování sekvence bílkovin
Hmotnostní spektrometrie (MS)<br />
• separace nabitých částic na základě poměru jejich hmotnosti a náboje, tj. m/z<br />
• výsledkem je tzv. hmotnostní spektrum, kde na ose x je vynesena hodnota m/z<br />
a na ose y intenzita odezvy detektoru, často normalizovaná na nejintenzivnější<br />
pík v zobrazovaném rozsahu m/z<br />
Ion Source Mass Analyzer Detector<br />
+ +<br />
+<br />
+ + +<br />
+ + +<br />
+<br />
-<br />
%<br />
Recorded<br />
Spectrum<br />
m/z
Tandemová hmotnostní spektrometrie<br />
(MS/MS)<br />
• spojení dvou hmotnostně spektrometrických analýz v prostoru nebo<br />
čase, oddělených od sebe procesem disociace iontů (většinou kolizí s<br />
neutrálním plynem)<br />
• výsledkem je opět hmotnostní spektrum, popisující vztah rodičovského<br />
iontu a jeho fragmentů<br />
• důležité pro získání strukturní informace rodičovského iontu<br />
ionization<br />
MS 1<br />
precursor<br />
ion selection<br />
fragmentation<br />
of selected<br />
precursor<br />
MS 2<br />
analysis of<br />
fragment ions
Trojitý kvadupól – příklad MS/MS přístroje<br />
ion source<br />
detector<br />
+<br />
Q0<br />
ion<br />
transmission<br />
Q1<br />
precursor<br />
ion<br />
selection<br />
Q2<br />
collision<br />
cell<br />
Q3<br />
fragment<br />
ion<br />
analysis
Sekvenace <strong>proteinů</strong> pomocí MS<br />
• izolace bílkovin, jejich separace (často gelovou elektroforézou)<br />
• digesce vhodným enzymem (nebo chemicky) na peptidy<br />
• směs peptidů buď přímo nebo po separaci (kapalinovou<br />
chromatografií) analyzujeme pomocí MS/MS<br />
• vzniklé fragmentové ionty umožňují identifikaci/sekvenaci peptidů, a<br />
v důsledku i <strong>proteinů</strong><br />
x 4<br />
y 4<br />
z 4<br />
x 3<br />
z 3<br />
x 2<br />
z 2<br />
x 1<br />
z 1<br />
R1 O R2 O R3 O R4 O R5<br />
H 2<br />
N C C N C C N C C N C C N C<br />
H H H H H H H H H<br />
a 4<br />
b 4<br />
c 4<br />
H +<br />
COOH
Fragmentové ionty peptidů<br />
• [N] – hmotnost N-<br />
koncové skupiny peptidu<br />
• [C] – hmotnost C-<br />
koncové skupiny peptidu<br />
• [M] – součet hmotností<br />
aminokyselinových<br />
zbytků obsažených ve<br />
fragmentovém iontu<br />
• [e] – hmotnost elektronu<br />
Ion type Ion mass<br />
a [N] + [M] – CO – [e]<br />
b [N] + [M] – [e]<br />
c [N] + [M] + NH 3 – [e]<br />
x [C] + [M] + CO – [e]<br />
y [C] + [M] + H 2 – [e]<br />
z [C] + [M] – NH – [e]<br />
d [a-ion] – [part of side chain]<br />
v [y-ion] – [whole side chain]<br />
w [z-ion] – [part of side chain]<br />
immonium ion [M] + H – CO – [e]<br />
internal y m a n [M] + H – CO – [e]<br />
internal y m b n [M] + H – [e]
Struktura fragmentových iontů peptidů<br />
R1 O<br />
H 2<br />
N C C N + C<br />
H<br />
H<br />
R2<br />
H<br />
R3<br />
O<br />
R4<br />
O + C N C C N C C N C<br />
H H H H H H<br />
O<br />
R5<br />
COOH<br />
R1<br />
H 2<br />
N C C N C<br />
H<br />
O<br />
H<br />
HC<br />
H<br />
R'<br />
H + H +<br />
a 2<br />
x 3<br />
d 2<br />
R1 O R2<br />
R3 O R4 O R5<br />
O R4 O<br />
O +<br />
+<br />
H 3<br />
N C C N C C N C COOH HN<br />
C C N C C N<br />
H H H<br />
H H H H H<br />
H H H H<br />
b 2<br />
y 3<br />
v 3<br />
R1 O R2 O<br />
R3 O R4 O R5<br />
R' CH O R4 O<br />
+<br />
NH 3<br />
C + C N C C N C COOH<br />
C C N C C N<br />
H H H<br />
H H H H H<br />
H H H H<br />
H 2<br />
N C C N C C<br />
H 2<br />
N C C N C C<br />
w 3<br />
R5<br />
C COOH<br />
H<br />
R5<br />
H +<br />
C COOH<br />
H<br />
R3<br />
O<br />
R4<br />
H 2<br />
N C C N + C<br />
R3 O<br />
R4<br />
H 2<br />
N C C N C C<br />
O +<br />
R<br />
+<br />
H 2<br />
N CH<br />
H<br />
H<br />
y 3<br />
a 4<br />
H<br />
H<br />
H<br />
y 3<br />
b 4<br />
H<br />
immonium ion
% Intensity<br />
Příklad MS/MS spektra peptidu<br />
• interpretace MS/MS spektra vede k získání částečné<br />
nebo úplné sekvence peptidu<br />
Parent mass [M+H] + 1394.744<br />
112.09 506.24 821.33<br />
129.10 574.21 871.32<br />
175.10 576.16 960.36<br />
211.12 593.26 968.41<br />
100<br />
271.13 689.22 1088.44<br />
y6<br />
90<br />
288.17 706.32 1097.44<br />
80<br />
314.10 774.30 1184.46<br />
70<br />
418.18 777.30 1281.49<br />
60<br />
427.17 802.29 1335.55<br />
50<br />
435.20 804.30<br />
intepreted sequence:<br />
LPSEFDLSAFLR<br />
2254.5<br />
40<br />
30<br />
y1<br />
20<br />
y8<br />
y10<br />
b6<br />
10<br />
y3 y4<br />
y5-NH3<br />
b7<br />
y2<br />
y5<br />
y7<br />
y11<br />
R<br />
y9<br />
0<br />
59.0 341.8 624.6 907.4 1190.2 1473.0<br />
Mass (m/z)
Sekvenční databáze
Od <strong>DNA</strong> k proteinu (eukaryotní buňka)<br />
• transkripcí z <strong>DNA</strong> vzniká<br />
primární RNA-transkript (exony<br />
+ introny)<br />
• modifikace konců primárního<br />
RNA-transkriptu (čepička RNA<br />
+ poly(A) konec)<br />
• vyštěpení intronů v enzymově<br />
katalyzovaném sestřihu RNA<br />
=> vznik mRNA<br />
• transport mRNA z jádra do<br />
cytoplasmy, kde dochází k<br />
translaci a vzniku bílkoviny<br />
• některé procesy probíhají<br />
současně<br />
<strong>DNA</strong><br />
cytoplasma<br />
exony<br />
primární RNA-transkript<br />
čepička RNA<br />
mRNA<br />
mRNA<br />
protein<br />
jádro<br />
gen<br />
introny<br />
transkripce<br />
přidání 5’-čepičky<br />
a poly(A) konce<br />
sestřih<br />
export do<br />
cytoplasmy<br />
translace<br />
AAAAA<br />
AAAAA<br />
AAAAA
Od <strong>DNA</strong> k proteinu (prokaryotní buňka)<br />
• jednodušší proces (absence<br />
jádra)<br />
• 5’-konec mRNA vzniká iniciací<br />
transkripce, 3’-konec je určen<br />
místem terminace genu<br />
<strong>DNA</strong><br />
gen<br />
transkripce<br />
• translace může začít již před<br />
dokončením transkripce<br />
mRNA<br />
translace<br />
protein
Sekvenční databáze<br />
• Historie vzniku databází<br />
• Primární a sekundární databáze<br />
• Nukleotidové sekvenční databáze<br />
• Struktura záznamu nukleotidové sekvence<br />
• Proteinové sekvenční databáze
Historie vzniku databází<br />
• snaha o zpřístupnění výsledků sekvenačních<br />
experimentů a vzájemnou výměnu informací<br />
• 60. léta minulého století – Margaret Dayhoff se<br />
spolupracovníky – Protein Information Resource (PIR)<br />
– sbírka proteinových sekvencí známých v té době<br />
– vyšlo v tištěné podobě jako Atlas of Protein Sequence and<br />
Structure<br />
– původně pouze sekvence <strong>proteinů</strong> z Edmanova <strong>sekvenování</strong>,<br />
později přidávány i nukleotidové sekvence<br />
– byly přidávány i popisy sekvencí => první anotovaná databáze<br />
– 1972 – nutnost převést do el. podoby (nárůst rozsahu) –<br />
distribuce na magn. pásku spolu s programy pro analýzu<br />
vzdálených evolučních příbuzností
Historie vzniku databází<br />
• 1982: vzniká <strong>DNA</strong> sekvenční databáze na European<br />
Molecular Biology Laboratory (EMBL) v Heidelbergu<br />
• krátce nato se připojuje GenBank při National Center for<br />
Biotechnology Information (NCBI) – součást National<br />
Library of Medicine při National Institutes of Health<br />
• o několik let později se připojuje i <strong>DNA</strong> Database of<br />
Japan (DDBJ)<br />
• 1988: sjednocení formy spolupráce a formátu dat mezi<br />
EMBL, GenBank a DDBJ<br />
• dnes: DDBJ / EMBL / GenBank konsorcium tvořené<br />
– the National Institute of Genetics in Mishima, Japan<br />
– the European Bioinformatics Institute (EBI) in Hinxton, UK<br />
– NCBI in Bethesda, Maryland, USA
Historie vzniku databází<br />
• 80. léta minulého století: Amos Bairoch (Ženeva) převedl<br />
PIR Atlas do formátu podobného EMBL formátu pro<br />
nukleotidové sekvence a přidal anotace k proteinovým<br />
sekvencím => PIR+<br />
• 1986: distribuce PIR+ na síti US Bionet (předchůdce<br />
Internetu) – tehdy obsahovala 3900 sekvencí<br />
• později vzniká SwissProt
Typy databází<br />
• hlavní úkol databází – zpřístupnit obsažené sekvence<br />
• primární databáze<br />
– archivní funkce<br />
– obsahují experimentální výsledky s částečnou interpretací<br />
– neobsahují však odborně doplněné popisy mnoha vlastností<br />
vztahujících se k dané sekvenci<br />
• sekundární databáze<br />
– administrované experty<br />
– někdy též nazývané databáze vzorů (pattern databases)<br />
– obsahují výsledky analýzy sekvencí z primárních databází<br />
• kompozitní databáze<br />
– kombinují různé zdroje primárních databází – není nutno<br />
procházet každou primární databázi zvlášť
Příklady databází<br />
primární sekundární kompozitní<br />
DDBJ PROSITE NRDB<br />
EMBL Profiles OWL<br />
GenBank PRINTS<br />
PIR Pfam<br />
SwissProt BLOCKS<br />
TrEMBL IDENTIFY
Nukleotidové sekvenční databáze<br />
• hlavním zdrojem nukleotidových sekvenčních databází je<br />
International Nucleotide Sequence Database<br />
Collaboration – DDBJ / EMBL / GenBank<br />
– nové sekvence lze zadávat do kterékoliv z těchto databází<br />
– každá databáze si spravuje pouze sekvence do ní vložené<br />
– jednou za 24 hodin si databáze navzájem vymění nová data a<br />
celkový obsah konsorcia je synchronizován (umožněno<br />
společným formátem dat)<br />
– primární zdroj sekvenční a biologické informace => mnoho<br />
databází závisí na správnosti údajů v DDBJ / EMBL / GenBank
Konsorcium DDBJ / EMBL / GenBank<br />
Entrez<br />
NIH<br />
NCBI<br />
submissions<br />
updates<br />
GenBank<br />
NIG<br />
submissions<br />
updates<br />
CIB<br />
DDBJ<br />
EMBL<br />
EBI<br />
SRS<br />
submissions<br />
updates<br />
getentry<br />
EMBL
Vlastnosti databází DDBJ / EMBL / GenBank<br />
• pokud pro danou nukleotidovou sekvenci není indikována kódující<br />
sekvence, tak není vytvořen odpovídající záznam v proteinové<br />
databázi<br />
– příslušné porovnávání sekvencí vycházející z proteinových sekvencí<br />
může některé dostupné informace ztratit<br />
• pokud záznam obsahující kódující sekvenci obsahuje chybu, tak tato<br />
chyba může být dále propagována mezi databázemi (i pomocí<br />
odvození dalších sekvencí na základě podobnosti)<br />
• pokud důležitá vlastnost o proteinové sekvenci není na správném<br />
místě, tak programy navržené pro jejich získávání ji mohou ztratit
• FASTA formát<br />
Formáty dat<br />
– jednoduchý formát pro sekvence<br />
• flatfile<br />
– základní jednotka pro informaci o konkrétní sekvenci<br />
– konkrétní formáty pro jednotlivé databáze se od sebe částečně<br />
liší<br />
– ale jeho struktura přesto umožňuje vzájemnou výměnu<br />
vložených sekvencí mezi databázemi
FASTA formát<br />
začátek<br />
nového<br />
záznamu<br />
zdrojová<br />
databáze<br />
(SwissProt)<br />
přístupové<br />
číslo<br />
UniProt<br />
ideintifikátor<br />
krátký popis<br />
definiční řádek<br />
>sp|P48598|IF4E_DROME Eukaryotic translation initiation factor 4E OS=Drosophila melanogaster GN=eIF-4E PE=1 SV=1<br />
MQSDFHRMKNFANPKSMFKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGEPAGN<br />
TATTTAPAGDDAVRTEHLYKHPLMNVWTLWYLENDRSKSWEDMQNEITSFDTVEDFWSLY<br />
NHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRWVITLNKSSKTDLDNLWLDVLLCL<br />
IGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAALEIGHKLRDALRLGRNNSLQYQ<br />
LHKDTMVKQGSNVKSIYTL<br />
sekvence proteinu<br />
(obvykle 60 znaků<br />
na řádek)<br />
http://www.uniprot.org/uniprot/P48598.fasta
FASTA formát – více záznamů<br />
>sp|Q55D85|CAS1_DICDI Cycloartenol synthase OS=Dictyostelium discoideum GN=cas1 PE=1 SV=1<br />
MTTTNWSLKVDRGRQTWEYSQEKKEATDVDIHLLRLKEPGTHCPEGCDLNRAKTPQQAIK<br />
KAFQYFSKVQTEDGHWAGDYGGPMFLLPGLVITCYVTGYQLPESTQREIIRYLFNRQNPV<br />
DGGWGLHIEAHSDIFGTTLQYVSLRLLGVPADHPSVVKARTFLLQNGGATGIPSWGKFWL<br />
ATLNAYDWNGLNPIPIEFWLLPYNLPIAPGRWWCHCRMVYLPMSYIYAKKTTGPLTDLVK<br />
DLRREIYCQEYEKINWSEQRNNISKLDMYYEHTSLLNVINGSLNAYEKVHSKWLRDKAID<br />
YTFDHIRYEDEQTKYIDIGPVNKTVNMLCVWDREGKSPAFYKHADRLKDYLWLSFDGMKM<br />
QGYNGSQLWDTAFTIQAFMESGIANQFQDCMKLAGHYLDISQVPEDARDMKHYHRHYSKG<br />
AWPFSTVDHGWPISDCTAEGIKSALALRSLPFIEPISLDRIADGINVLLTLQNGDGGWAS<br />
YENTRGPKWLEKFNPSEVFQNIMIDYSYVECSAACIQAMSAFRKHAPNHPRIKEINRSIA<br />
RGVKFIKSIQRQDGSWLGSWGICFTYGTWFGIEGLVASGEPLTSPSIVKACKFLASKQRA<br />
DGGWGESFKSNVTKEYVQHETSQVVNTGWALLSLMSAKYPDRECIERGIKFLIQRQYPNG<br />
DFPQESIIGVFNFNCMISYSNYKNIFPLWALSRYNQLYLKSKI<br />
>sp|Q05581|CAS1_STRCL Clavaminate synthase 1 OS=Streptomyces clavuligerus GN=cs1 PE=1 SV=3<br />
MTSVDCTAYGPELRALAARLPRTPRADLYAFLDAAHTAAASLPGALATALDTFNAEGSED<br />
GHLLLRGLPVEADADLPTTPSSTPAPEDRSLLTMEAMLGLVGRRLGLHTGYRELRSGTVY<br />
HDVYPSPGAHHLSSETSETLLEFHTEMAYHRLQPNYVMLACSRADHERTAATLVASVRKA<br />
LPLLDERTRARLLDRRMPCCVDVAFRGGVDDPGAIAQVKPLYGDADDPFLGYDRELLAPE<br />
DPADKEAVAALSKALDEVTEAVYLEPGDLLIVDNFRTTHARTPFSPRWDGKDRWLHRVYI<br />
RTDRNGQLSGGERAGDVVAFTPRG<br />
>sp|P18503|CAS4_EPHMU Short-chain collagen C4 (Fragment) OS=Ephydatia muelleri PE=2 SV=1<br />
DTGPQGPQGVAGPPGIDGAKGDKGECFYPPPPTCPTCPAGPPGAPGPQGAPGAPGAPGLP<br />
GPAGPQGPKGDKGLPGNDGQPGAPGAPGYDGAKGDKGDTGAPGPQGPKGDQGPKGDQGYK<br />
GDAGLPGQPGQTGAPGKDGQDGAKGDKGDQGPAGTPGAPGKDGAQGPAGPAGPAGPAGPV<br />
GPTGPQGPQGPKGDVGPQGPQGAPGSNGAVVYIRWGNNVCPAGETNVYSGHIVESSNAND<br />
ANGDYLCLPDTHNAYPPQTQNPLLNLKDVTDSYGKTVPCVACLASGRSTVFTFPDNTVCP<br />
YGWTTEYVGYEAANPKWPGQNLCVDTYFGDKLSQTPCNNLAVIAKGPLNAYSYQPQDVVS<br />
CVVCSI<br />
>sp|P02662|CASA1_BOVIN Alpha-S1-casein OS=Bos taurus GN=CSN1S1 PE=1 SV=2<br />
MKLLILTCLVAVALARPKHPIKHQGLPQEVLNENLLRFFVAPFPEVFGKEKVNELSKDIG<br />
SESTEDQAMEDIKQMEAESISSSEEIVPNSVEQKHIQKEDVPSERYLGYLEQLLRLKKYK<br />
VPQLEIVPNSAEERLHSMKEGIHAQQKEPMIGVNQELAYFYPELFRQFYQLDAYPSGAWY<br />
YVPLGTQYTDAPSFSDIPNPIGSENSEKTTMPLW<br />
počet<br />
záznamů<br />
souhrnné informace<br />
o databázi<br />
UniProt/SwissProt<br />
verze<br />
databáze<br />
Time files compressed : Tue Feb 02 19:18:46 2010<br />
Time files compressed (int) : 1265134726<br />
Time / date of fasta file : Thu Jan 21 06:55:34 2010<br />
Time of fasta files (int) : 1264053334<br />
Number of residues : 180900945<br />
Number of sequences : 514212<br />
Number with invalid residues: 0<br />
Number of sequences too long: 0<br />
Length of longest sequence : 35213<br />
Maximum Accession Length : 11<br />
ftp://ftp.expasy.org/databases/uniprot/knowledgebase/uniprot_sprot.fasta.gz
Flatfile v DDBJ / EMBL / GenBank<br />
• DDBJ a GenBank flatfiles jsou téměř shodné; používají<br />
slovní označení oddílů (lépe srozumitelnější)<br />
• EMBL používá dvojpísmenné prefixy pro jednotlivé řádky<br />
• obsahují 3 hlavní oddíly:<br />
– hlavička (header) – informace o celém záznamu<br />
– vlastnosti (features) – anotace záznamu<br />
– nukleotidová sekvence<br />
• poslední řádek končí znaky //
LOCUS DMU54469 2881 bp <strong>DNA</strong> linear INV 22-FEB-1998<br />
DEFINITION Drosophila melanogaster eukaryotic initiation factor 4E (eIF4E)<br />
gene, alternative splice products, complete cds.<br />
ACCESSION U54469<br />
VERSION U54469.1 GI:1322283<br />
KEYWORDS .<br />
SOURCE Drosophila melanogaster (fruit fly)<br />
ORGANISM Drosophila melanogaster<br />
Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota;<br />
Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha;<br />
Ephydroidea; Drosophilidae; Drosophila; Sophophora.<br />
REFERENCE 1 (bases 1 to 2881)<br />
AUTHORS Lavoie,C.A., Lachance,P.E., Sonenberg,N. and Lasko,P.<br />
TITLE Alternatively spliced transcripts from the Drosophila eIF4E gene<br />
produce two different Cap-binding proteins<br />
JOURNAL J. Biol. Chem. 271 (27), 16393-16398 (1996)<br />
PUBMED 8663200<br />
REFERENCE 2 (bases 1 to 2881)<br />
AUTHORS Lasko,P.F.<br />
TITLE Direct Submission<br />
JOURNAL Submitted (09-APR-1996) Paul F. Lasko, Biology, McGill University,<br />
1205 Avenue Docteur Penfield, Montreal, QC H3A 1B1, Canada<br />
FEATURES<br />
Location/Qualifiers<br />
source 1..2881<br />
/organism="Drosophila melanogaster"<br />
/mol_type="genomic <strong>DNA</strong>"<br />
/db_xref="taxon:7227"<br />
/chromosome="3"<br />
/map="67A8-B2"<br />
gene 80..2881<br />
/gene="eIF4E"<br />
mRNA<br />
join(80..224,892..1458,1550..1920,1986..2085,2317..2404,<br />
2466..2881)<br />
/gene="eIF4E"<br />
/product="eukaryotic initiation factor 4E-I"<br />
mRNA<br />
join(80..224,1129..1458,1550..1920,1986..2085,2317..2404,<br />
2466..2881)<br />
/gene="eIF4E"<br />
/product="eukaryotic initiation factor 4E-I"<br />
mRNA<br />
join(80..224,1550..1920,1986..2085,2317..2404,2466..2881)<br />
/gene="eIF4E"<br />
/product="eukaryotic initiation factor 4E-II"<br />
CDS<br />
join(201..224,1550..1920,1986..2085,2317..2404,2466..2629)<br />
/gene="eIF4E"<br />
/note="Method: conceptual translation with partial peptide<br />
sequencing"<br />
/codon_start=1<br />
/product="eukaryotic initiation factor 4E-II"<br />
/protein_id="AAC03524.1"<br />
/db_xref="GI:1322284"<br />
/translation="MVVLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETG<br />
EPAGNTATTTAPAGDDAVRTEHLYKHPLMNVWTLWYLENDRSKSWEDMQNEITSFDTV<br />
EDFWSLYNHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRWVITLNKSSKTDLDN<br />
LWLDVLLCLIGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAALEIGHKLRDAL<br />
RLGRNNSLQYQLHKDTMVKQGSNVKSIYTL"<br />
CDS<br />
join(1402..1458,1550..1920,1986..2085,2317..2404,<br />
2466..2629)<br />
/gene="eIF4E"<br />
/note="Method: conceptual translation with partial peptide<br />
sequencing; two alternatively spliced transcripts both<br />
encode 4E-I"<br />
/codon_start=1<br />
/product="eukaryotic initiation factor 4E-I"<br />
/protein_id="AAC03525.1"<br />
/db_xref="GI:1322285"<br />
/translation="MQSDFHRMKNFANPKSMFKTSAPSTEQGRPEPPTSAAAPAEAKD<br />
VKPKEDPQETGEPAGNTATTTAPAGDDAVRTEHLYKHPLMNVWTLWYLENDRSKSWED<br />
MQNEITSFDTVEDFWSLYNHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRWVIT<br />
LNKSSKTDLDNLWLDVLLCLIGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAA<br />
LEIGHKLRDALRLGRNNSLQYQLHKDTMVKQGSNVKSIYTL"<br />
ORIGIN<br />
1 cggttgcttg ggttttataa catcagtcag tgacaggcat ttccagagtt gccctgttca<br />
61 acaatcgata gctgcctttg gccaccaaaa tcccaaactt aattaaagaa ttaaataatt<br />
121 cgaataataa ttaagcccag taacctacgc agcttgagtg cgtaaccgat atctagtata<br />
Flatfile v GenBank a EMBL - příklad<br />
ID U54469; SV 1; linear; genomic <strong>DNA</strong>; STD; INV; 2881 BP.<br />
XX<br />
AC U54469;<br />
XX<br />
DT 19-MAY-1996 (Rel. 47, Created)<br />
DT 17-APR-2005 (Rel. 83, Last updated, Version 4)<br />
XX<br />
DE Drosophila melanogaster eukaryotic initiation factor 4E (eIF4E) gene,<br />
DE alternative splice products, complete cds.<br />
XX<br />
KW .<br />
XX<br />
OS Drosophila melanogaster (fruit fly)<br />
OC Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera;<br />
OC Endopterygota; Diptera; Brachycera; Muscomorpha; Ephydroidea;<br />
OC Drosophilidae; Drosophila; Sophophora.<br />
XX<br />
RN [1]<br />
RP 1-2881<br />
RX DOI; 10.1074/jbc.271.27.16393<br />
RX PUBMED; 8663200.<br />
RA Lavoie C.A., Lachance P.E.D., Sonenberg N., Lasko P.;<br />
RT "Alternatively spliced transcripts from the Drosophila eIF4E gene produce<br />
RT two different Cap-binding proteins";<br />
RL J. Biol. Chem. 271(27):16393-16398(1996).<br />
XX<br />
RN [2]<br />
RP 1-2881<br />
RA Lasko P.F.;<br />
RT ;<br />
RL Submitted (09-APR-1996) to the EMBL/GenBank/DDBJ databases.<br />
RL Paul F. Lasko, Biology, McGill University, 1205 Avenue Docteur Penfield,<br />
RL Montreal, QC H3A 1B1, Canada<br />
XX<br />
FH Key Location/Qualifiers<br />
FH<br />
FT source 1..2881<br />
FT<br />
/organism="Drosophila melanogaster"<br />
FT<br />
/chromosome="3"<br />
FT<br />
/map="67A8-B2"<br />
FT<br />
/mol_type="genomic <strong>DNA</strong>"<br />
FT<br />
/db_xref="taxon:7227"<br />
FT mRNA join(80..224,1129..1458,1550..1920,1986..2085,2317..2404,<br />
FT 2466..2881)<br />
FT<br />
/gene="Eif4E"<br />
FT<br />
/product="eukaryotic initiation factor 4E-I"<br />
FT mRNA join(80..224,892..1458,1550..1920,1986..2085,2317..2404,<br />
FT 2466..2881)<br />
FT<br />
/gene="Eif4E"<br />
FT<br />
/product="eukaryotic initiation factor 4E-I"<br />
FT mRNA join(80..224,1550..1920,1986..2085,2317..2404,2466..2881)<br />
FT<br />
/gene="Eif4E"<br />
FT<br />
/product="eukaryotic initiation factor 4E-II"<br />
FT CDS join(201..224,1550..1920,1986..2085,2317..2404,2466..2629)<br />
FT<br />
/codon_start=1<br />
FT<br />
/gene="Eif4E"<br />
FT<br />
/product="eukaryotic initiation factor 4E-II"<br />
FT<br />
/note="Method: conceptual translation with partial peptide<br />
FT<br />
sequencing."<br />
FT<br />
/db_xref="FLYBASE:FBgn0015218"<br />
FT<br />
/db_xref="GOA:P48598"<br />
FT<br />
/db_xref="InterPro:IPR001040"<br />
FT<br />
/db_xref="InterPro:IPR019770"<br />
FT<br />
/db_xref="UniProtKB/Swiss-Prot:P48598"<br />
FT<br />
/protein_id="AAC03524.1"<br />
FT<br />
/translation="MVVLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGE
Příklad:<br />
Eukaryotic translation initiation factor 4E<br />
• http://www.uniprot.org/uniprot/P48598<br />
• http://www.ebi.ac.uk/cgibin/expasyfetch?U54469<br />
• http://www.ncbi.nlm.nih.gov/nuccore/132228<br />
3?report=genbank<br />
• http://getentry.ddbj.nig.ac.jp/search/get_<br />
entry?accnumber=U54469
Third party annotation (TPA)<br />
• http://www.ncbi.nlm.nih.gov/genbank/TPA.html<br />
• databáze navržená pro doplnění experimentálních /<br />
odvozených informací doplňující / potvrzující informace<br />
poskytnuté zadavatelem sekvence<br />
• vhodné pro ostatní vědce nemající přímý přístup k<br />
databázové položce<br />
• TPA dataset obsahuje<br />
– reanotace existujících položek<br />
– kombinace nových sekvencí a existujících primárních položek<br />
– anotace archivu a celých genomových shotgun dat<br />
• př.: http://www.ncbi.nlm.nih.gov/nuccore/28317386
RefSeq projekt<br />
• http://www.ncbi.nlm.nih.gov/RefSeq/<br />
• administrovaná sekundární databáze s cílem poskytnout souhrnný,<br />
integrovaný a neredundantní soubor sekvencí jak z genomické, tak<br />
transkripční a proteinové úrovně pro stále se zvyšující počet<br />
organismů<br />
• důvodem vzniku byla redundance sekvencí a nejasnost původu<br />
záznamu (experiment vs. počítačové odvození)<br />
• referenční sekvenci pro každou molekulu (<strong>DNA</strong>, mRNA, protein)<br />
• opět vyžaduje hodně práce biologických odborníků<br />
• 2+6 formát přístupového kódu<br />
experimentální<br />
data<br />
genomická<br />
anotace<br />
genomický<br />
úsek (<strong>DNA</strong>)<br />
NT_123456<br />
mRNA<br />
NM_123456<br />
XM_123456<br />
modelová mRNA<br />
protein<br />
NP_123456<br />
XP_123456<br />
modelový protein
EMBL Genome Reviews<br />
• http://www.ebi.ac.uk/GenomeReviews/<br />
• přechází na Ensembl Genomes –<br />
http://www.ensemblgenomes.org/<br />
• opět důvodem překlenutí nedovoleného přístupu pro<br />
ostatní<br />
• sekundární databáze pro administrované verze<br />
kompletních genomových sekvencí v DDBJ / EMBL /<br />
GenBank<br />
• přidané další informace např. z UniProt knowledgebase,<br />
Gene Ontology Annotation (GOA), InterPro a pod.<br />
• synchronizace s databází UniProt
Proteinové sekvenční databáze<br />
• vznikly hlavně z důvodu analýzy <strong>proteinů</strong> kódovaných v<br />
genomech<br />
• důležité obzvláště s příchodem aplikací hmotnostní<br />
spektrometrie v analýze <strong>proteinů</strong> (mj. analýza<br />
posttranslačních modifikací)<br />
• z větší části jsou to sekundární databáze protože<br />
obsahují sekvence odvozené z <strong>DNA</strong> databází
Proteinové sekvenční databáze – příklady<br />
• GenPept<br />
– jen pro proteinové sekvence odvozené translací nukleotidových<br />
sekvencí<br />
– dnes součástí NCBI Protein - http://www.ncbi.nlm.nih.gov/protein<br />
• RefSeq – obsahuje též proteinové sekvence (pro<br />
vybrané organismy)<br />
– http://www.ncbi.nlm.nih.gov/RefSeq/<br />
• UniProt – administrovaná databáze; kompozit SwissProt,<br />
TrEMBL a PIR-PSD – http://www.uniprot.org<br />
– UniProt Archive (UniParc) – vkládání nových sekvencí<br />
– UniProt Knowledgebase – rozšíření práce původně prováděné<br />
se SwissProt, TrEMBL a PIR-PSD s cílem poskytnout expertní<br />
administrovanou databázi<br />
– UniRef – UniProt nonredundant reference database – poskytuje<br />
neredundantní pohled na data v UniParc a UniProt<br />
Knowledgebase
UniProt Archive (UniParc)<br />
• podstatná část sekvenčních dat <strong>proteinů</strong> pochází z přímé sekvenace<br />
<strong>proteinů</strong><br />
– SwissProt, TrEMBL, PIR-PSD<br />
– patentové aplikace, PDB<br />
– IPI, RefSeq, FlyBase, WormBase<br />
• UniParc dává dohromady tyto zdroje (spolu s přímým zadáváním<br />
sekvencí)<br />
• každá sekvence reprezentována pouze jednou svým jedinečným<br />
identifikačním číslem<br />
– křížové referencování se zdrojovými databázemi (včetně verze vložené<br />
sekvence) spolu s označením stavu sekvence<br />
• UniParc nemá žádné anotace sekvencí – ty jsou dostupné přes<br />
původní databáze<br />
• UniParc slouží k párovému přikládání sekvencí<br />
– UniProt NREF 100, UniProt NREF 90, UniProt NREF 50 (UniRef<br />
klastry) – seskupovány sekvence bez ohledu na druh
UniProt Knowledgebase<br />
• SwissProt – manuálně anotované záznamy založené na<br />
informaci z literatury + administrátorem vyhodnocené<br />
počítačové analýzy sekvencí<br />
• TrEMBL – počítačové anotované záznamy čekající na<br />
manuální anotaci (CDS z EMBL, které nejsou ve<br />
SwissProt)<br />
• také PIR-PSD – záznamy, které nejsou ve<br />
SwissProt/TrEMBL
UniProt Knowledgebase<br />
• Knowledgebase je také neredundantní – snaha popsat<br />
produkty odvozené z jednoho genu (nebo genů) jednoho<br />
druhu organismu<br />
– jedno přístupové číslo spolu s identifikátorama isoforem<br />
(alternativní sestřihy, proteolytické štěpy, post-translační<br />
modifikace)<br />
• rozsáhlé křížové reference => rozbočovač pro<br />
biomolekulární informace<br />
– http://www.uniprot.org/uniprot/P10896<br />
• např. link k SWISS-2DPAGE<br />
– http://www.expasy.org/ch2d/
UniProt – tok dat z primárních zdrojů<br />
UniProt NREF 50<br />
UniProt NREF 90<br />
UniProt NREF 100<br />
Proteome<br />
Sets<br />
UniProt Knowledgebase<br />
SwissProt + TrEMBL<br />
IPI<br />
UniProt Archive<br />
Sub/<br />
Peptide<br />
Data<br />
DDBJ/<br />
EMBL/<br />
GenBank<br />
VEGA<br />
PDB<br />
Patent<br />
Data<br />
WGS EnsEMBL RefSeq FlyBase WormBase<br />
Database sources
UniProt<br />
http://www.uniprot.org/
ID IF4E_DROME Reviewed; 259 AA.<br />
AC P48598; A4V1Q6; Q95SV3; Q9VSX8; Q9VSX9;<br />
DT 01-FEB-1996, integrated into UniProtKB/Swiss-Prot.<br />
DT 01-FEB-1996, sequence version 1.<br />
DT 20-APR-2010, entry version 89.<br />
DE RecName: Full=Eukaryotic translation initiation factor 4E;<br />
DE<br />
Short=eIF-4E;<br />
DE<br />
Short=eIF4E;<br />
DE AltName: Full=mRNA cap-binding protein;<br />
DE AltName: Full=eIF-4F 25 kDa subunit;<br />
GN Name=eIF-4E; Synonyms=Eif4e, EIF4F; ORFNames=CG4035;<br />
OS Drosophila melanogaster (Fruit fly).<br />
OC Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota;<br />
OC Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha;<br />
OC Ephydroidea; Drosophilidae; Drosophila; Sophophora.<br />
OX NCBI_TaxID=7227;<br />
RN [1]<br />
RP NUCLEOTIDE SEQUENCE [MRNA] (ISOFORM I), AND DEVELOPMENTAL STAGE.<br />
RX MEDLINE=95260867; PubMed=7742371;<br />
RA Hernandez G., Sierra J.M.;<br />
RT "Translation initiation factor eIF-4E from Drosophila: c<strong>DNA</strong> sequence<br />
RT and expression of the gene.";<br />
RL Biochim. Biophys. Acta 1261:427-431(1995).<br />
RN [2]<br />
RP NUCLEOTIDE SEQUENCE [GENOMIC <strong>DNA</strong>] (ISOFORMS I AND II), AND FUNCTION.<br />
RX MEDLINE=96279193; PubMed=8663200; DOI=10.1074/jbc.271.27.16393;<br />
RA Lavoie C.A., Lachance P.E.D., Sonenberg N., Lasko P.;<br />
RT "Alternatively spliced transcripts from the Drosophila eIF4E gene<br />
RT produce two different Cap-binding proteins.";<br />
RL J. Biol. Chem. 271:16393-16398(1996).<br />
RN [3]<br />
RP NUCLEOTIDE SEQUENCE [GENOMIC <strong>DNA</strong>] (ISOFORMS I AND II), TISSUE<br />
RP SPECIFICITY, AND DEVELOPMENTAL STAGE.<br />
RC STRAIN=Canton-S;<br />
RX MEDLINE=97218035; PubMed=9065696; DOI=10.1007/s004380050365;<br />
RA Hernandez G., del Corral R., Santoyo J., Campuzano S., Sierra J.M.;<br />
RT "Localization, structure and expression of the gene for translation<br />
RT initiation factor eIF-4E from Drosophila melanogaster.";<br />
RL Mol. Gen. Genet. 253:624-633(1997).<br />
RN [4]<br />
RP NUCLEOTIDE SEQUENCE [LARGE SCALE GENOMIC <strong>DNA</strong>].<br />
RC STRAIN=Berkeley;<br />
RX MEDLINE=20196006; PubMed=10731132; DOI=10.1126/science.287.5461.2185;<br />
RA Adams M.D., Celniker S.E., Holt R.A., Evans C.A., Gocayne J.D.,<br />
RA Amanatides P.G., Scherer S.E., Li P.W., Hoskins R.A., Galle R.F.,<br />
RA George R.A., Lewis S.E., Richards S., Ashburner M., Henderson S.N.,<br />
RA Sutton G.G., Wortman J.R., Yandell M.D., Zhang Q., Chen L.X.,<br />
RA Brandon R.C., Rogers Y.-H.C., Blazej R.G., Champe M., Pfeiffer B.D.,<br />
RA Wan K.H., Doyle C., Baxter E.G., Helt G., Nelson C.R., Miklos G.L.G.,<br />
RA Abril J.F., Agbayani A., An H.-J., Andrews-Pfannkoch C., Baldwin D.,<br />
RA Ballew R.M., Basu A., Baxendale J., Bayraktaroglu L., Beasley E.M.,<br />
RA Beeson K.Y., Benos P.V., Berman B.P., Bhandari D., Bolshakov S.,<br />
RA Borkova D., Botchan M.R., Bouck J., Brokstein P., Brottier P.,<br />
RA Burtis K.C., Busam D.A., Butler H., Cadieu E., Center A., Chandra I.,<br />
RA Cherry J.M., Cawley S., Dahlke C., Davenport L.B., Davies P.,<br />
Flatfile v UniProtu - příklad<br />
http://www.uniprot.org/uniprot/P48598
EMBL-EBI<br />
http://www.ebi.ac.uk/
NCBI – Natinal Center for Biotechnology Information<br />
http://www.ncbi.nlm.nih.gov/
Nástroje pro práci<br />
se sekvenčními databázemi
Databázové nástroje<br />
• ExPASy, UniProt, NCBI – nástroje<br />
• Mascot – identifikace <strong>proteinů</strong><br />
• BLAST (pro nukleové kyseliny a proteiny)
ExPASy – Expert Protein Analysis Server<br />
http://www.expasy.org/<br />
• odkazy na databáze<br />
• užitečné programy a nástroje<br />
• zdroje informací pro výuku a návody k<br />
použití
ozebereme<br />
podrobněji<br />
ExPASy – http://www.expasy.org/
UniProt – http://www.uniprot.org/
UniProt – vyhledávání (Search)<br />
http://www.uniprot.org/<br />
vyhledávání v<br />
• základních datech<br />
– Protein Knowledgebase (UniProtKB)<br />
– Sequence Clusters (UniRef)<br />
– Sequence Archive (UniParc)<br />
• doplňující data<br />
• různé informace
Protein Knowledgebase – UniProtKB<br />
http://www.uniprot.org/uniprot/?query=trypsin&sort=score
Sequence Clusters (UniRef)<br />
http://www.uniprot.org/uniref/UniRef50_P35042<br />
reprezentativní<br />
sekvence<br />
64 bílkovin v klastru
UniProt – další nástroje<br />
• BLAST – párové přiložení sekvencí<br />
• Align – vícenásobné přiložení sekvencí<br />
(ClustalW algoritmus)<br />
• Retrieve – dávkové získání sekvencí na<br />
základě identifikátorů sekvencí<br />
• ID Mapping – mapování identifikátorů v<br />
jednotlivých databázích
UniProt – BLAST<br />
http://services.uniprot.org/blast/blast-20100427-2222061727<br />
zadaná<br />
sekvence<br />
výsledky<br />
párového<br />
přiložení<br />
detail
UniProt – BLAST (detail)<br />
http://services.uniprot.org/blastalignment/blast-20100427-2222061727/P06871#align-info0<br />
informace o<br />
párovém přiložení<br />
(ID sekvence,<br />
skóre, atd.)<br />
zadaná<br />
sekvence<br />
přiřazená<br />
sekvence z<br />
databáze<br />
informace o<br />
totožnosti, resp.<br />
podobnosti residuí
UniProt – Align (ClustalW)<br />
http://services.uniprot.org/clustalw/clustalw2-20100427-2148368204<br />
zadání<br />
a<br />
výsledek
UniProt – Retrieve<br />
zadané<br />
identifikátory<br />
sekvencí<br />
různé formáty<br />
výstupních dat
UniProt – ID Mapping<br />
zadané<br />
identifikátory<br />
sekvencí<br />
identifikační čísla v<br />
databázi<br />
EMBL/GenBank/DDBJ<br />
zadaných čísel
ExPASy – databáze<br />
http://www.expasy.org/databases.html<br />
mezi dalšími např.<br />
• databáze obrazů 2D<br />
gelů (SWISS-<br />
2DPAGE)<br />
• databáze glykanů<br />
(GlycoSuiteDB)
ExPASy – nástroje<br />
http://www.expasy.org/tools/<br />
mnoho nástrojů, jak na ExPASy serveru, tak mimo, rozdělených do několika<br />
kategorií:<br />
• identifikace a charakterizace <strong>proteinů</strong><br />
• identifikace a charakterizace <strong>proteinů</strong> pomocí peptidového mapování<br />
• identifikace a charakterizace <strong>proteinů</strong> pomocí tandemové hmotnostni<br />
spektrometrie<br />
• idetifikace pomocí pI, MW nebo aminokyselinového složení<br />
• ostatní predikční a charakterizační nástroje<br />
• ostatní proteomické nástroje<br />
• vyhodnocování MS dat (vizualizace, kvantifikace atd.)<br />
• analýza dat z 2D gelové elektroforézy<br />
• překlad <strong>DNA</strong> sekvencí na proteinové sekvence<br />
• podobnostní vyhledávání<br />
• vyhledávání vzorů a profilů<br />
• predikce post-translačních modifikací, topologií<br />
• analýza primární, sekundární, terciární a kvarterní struktury <strong>proteinů</strong><br />
• přiložení sekvencí (párové, násobné)<br />
• fylogenetická analýza aj.
• návrh<br />
teoretických<br />
struktur<br />
glykanů/glykopept<br />
idů na základě<br />
experimentálně<br />
zjištěné<br />
molekulové<br />
hmotnosti<br />
ExPASy – GlycoMod<br />
http://www.expasy.org/tools/glycomod/<br />
vložení<br />
experimentálních<br />
hodnot<br />
nastavení<br />
parametrů
ExPASy – GlycoMod (příklad výsledku)<br />
identifikovaný<br />
N-glykan<br />
odkaz do<br />
databáze<br />
GlycoSuiteDB
ExPASy – predikční proteomické nástroje<br />
http://www.expasy.org/tools/<br />
• ProtParam – fyzikálně-chemické parametry proteinové<br />
sekvence (aminokyselinové složení, elementární složení,<br />
izoelektrický bod, extinkční koeficient)<br />
• Compute pI/Mw – spočítá hodnotu pI a molekulové<br />
hmotnosti jak pro sekvence v UniProt (pomocí ID<br />
sekvence), tak pro uževatelem zadanou sekvenci<br />
• GlycanMass – spočítá hmotnost oligosacharidové struktury<br />
• PeptideCutter – predikce štěpných míst v proteinové<br />
sekvenci<br />
• PeptideMass – spočítá teoretické hmotnosti peptidů (spolu<br />
s posttranslačními modifikacemi uvedenými v databázi) po<br />
digesci proteinu<br />
• IsotopIdent – predikce teoretické isotopové distribuce<br />
peptidy, proteinu polynukleotidu nebo jiné chem látky
ExPASy – ProtParam<br />
http://www.expasy.org/tools/protparam.html<br />
vložení ID<br />
proteinu nebo<br />
sekvence<br />
část výpisu<br />
výsledných<br />
hodnot<br />
pro výpočet hodnot pI/Mw lze analogicky<br />
použít program Compute pI/Mw<br />
(http://www.expasy.org/tools/pi_tool.html)
ExPASy – PeptideMass<br />
http://www.expasy.org/tools/peptide-mass.html<br />
vložení ID<br />
proteinu nebo<br />
sekvence<br />
část výpisu<br />
výsledných<br />
hodnot<br />
zadání<br />
parametrů<br />
teoretického<br />
štěpení
Nástroje pro identifikaci <strong>proteinů</strong> pomocí MS dat<br />
• Mascot – databázové vyhledávaní a identifikace<br />
<strong>proteinů</strong> s MS a/nebo MSMS daty (Matrix Science<br />
Ltd., London)<br />
• ProFound – databázové vyhledávaní a identifikace<br />
<strong>proteinů</strong> s MS daty (MSMS data – program X!<br />
Tandem a X! Hunter); též predikční nástroje (The<br />
Rockefeller University, New York)<br />
• ProteinProspector – databázové vyhledávání +<br />
predikční nástroje pro identifikaci <strong>proteinů</strong> z MS a<br />
MSMS dat (University of California, San Francisco)
Mascot<br />
http://www.matrixscience.com/search_form_select.html<br />
tři nástroje pro vyhledávání:<br />
• Peptide Mass Fingerprinting<br />
– nástroj pro prohledávání<br />
databáze na základě<br />
metody otisku prstu (MS<br />
data)<br />
• Sequence Query –<br />
vyhledávání na základě<br />
MSMS dat nebo jejich<br />
částečné interpretace<br />
• MS/MS Ion Search –<br />
prohledávání databází s<br />
MSMS daty (vetší soubory)
% Intensity<br />
Typické MS spektrum peptidové směsi po<br />
digesci v gelu<br />
100<br />
90<br />
80<br />
70<br />
1413.7413<br />
1.8E+4<br />
60<br />
925.5274<br />
50<br />
40<br />
30<br />
20<br />
1137.6631<br />
1144.5979 1653.8485<br />
1809.9584<br />
1370.7491<br />
10<br />
1156.5598 1525.6969<br />
842.5183 1320.6467 1688.9136<br />
2212.1663<br />
2529.3186<br />
989.5385 1159.6367 1494.7484<br />
825.0976 1323.6652 1759.9321 1992.9878 2383.9719<br />
2225.1443 2705.1929<br />
0<br />
800 1240 1680 2120 2560 3000<br />
Mass (m/z)
http://www.matrixscience.com/cgi/search_form.pl?FORMVER=2&SEARCH=PMF
% Intensity<br />
100<br />
90<br />
Typické MSMS spektrum vybraného<br />
peptidového prekurzoru<br />
86.0977<br />
136.0765<br />
3249.6<br />
80<br />
70<br />
60<br />
50<br />
101.0736<br />
40<br />
30<br />
20<br />
10<br />
646.3367<br />
201.1172<br />
112.0810 223.1073<br />
288.1706 379.1458<br />
88.0840 251.0971<br />
348.1409<br />
492.2104<br />
183.1031 439.1602 526.1935 639.2639<br />
775.4004<br />
922.4632<br />
1213.5955<br />
0<br />
60 340 620 900 1180 1460<br />
Mass (m/z)
http://www.matrixscience.com/cgi/search_form.pl?FORMVER=2&SEARCH=SQ
BLAST – Basic Local Alignment Search Tool<br />
at NCBI (http://blast.ncbi.nlm.nih.gov/)<br />
porovnávání na<br />
úrovni nukleových<br />
kyselin<br />
porovnání na<br />
základě sekvencí<br />
<strong>proteinů</strong><br />
další nástroje pro<br />
analýzy sekvencí
BLAST at NCBI (http://blast.ncbi.nlm.nih.gov/)<br />
zadávací formulář<br />
výběr databáze<br />
volba algoritmu
BLAST at NCBI (http://blast.ncbi.nlm.nih.gov/)<br />
sekvence z databáze<br />
přiřazená k dotazu
Příklady ke cvičení
Informace o vzorku<br />
• protein byl separován pomocí gelové elektroforézy<br />
• redukce disulfidických můstků byla provedena<br />
dithiothreitolem, následná modifikace cysteinů byla<br />
provedena jodacetamidem (= „Carbamidomethyl (C)“)<br />
• enzymatické štěpení bylo provedeno v gelu pomocí<br />
trypsinu (štěpí za lysinem (K) a argininem (R),<br />
nenásleduje-li prolin)<br />
• hmotnostní analýza byla provedena na hmotnostním<br />
spektrometru typu MALDI-TOF/TOF<br />
• pro databázové vyhledávání použijte jeden z nástrojů<br />
http://www.matrixscience.com/search_form_select.html<br />
http://prospector.ucsf.edu/prospector/mshome.htm
Nastavení databázového vyhledávání (Mascot)<br />
• database: SwissProt<br />
• enzyme: Trypsin<br />
• missed cleavages: 1<br />
• taxonomy: All entries<br />
• fixed modifications: Carbamidomethyl (C)<br />
• variable modifications: Gln->pyro-Glu (N-term Q)<br />
Oxidation (M)<br />
Acetyl (Protein N-term)<br />
• peptide tolerance: 30 ppm<br />
– MSMS tolerance: 300 mmu<br />
• mass values: [M+H] + Monoisotopic
zde doplnit<br />
svoje<br />
m/z hodnoty
Nastavení databázového vyhledávání (Protein Prospector)<br />
• database: SwissProt<br />
• digest: Trypsin<br />
• max missed cleavages: 1<br />
• taxonomy: All<br />
• fixed modifications: Carbamidomethyl (C)<br />
• variable modifications: Peptide N-terminal Gln to pyroGlu<br />
Oxidation of M<br />
Protein N-terminus Acetylated<br />
• peptide tolerance: 30 ppm<br />
– MSMS tolerance: 300 mmu<br />
• mass are: monoisotopic
zde doplnit<br />
svoje<br />
m/z hodnoty
% Intensity<br />
Příklad MS spektra 1<br />
100<br />
90<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
915. 462<br />
1254. 727<br />
1326. 763<br />
1529. 795<br />
1694. 917<br />
4800 Ref l ect or Spec #1 M C=>BC[ BP = 1326. 8, 4573]<br />
získaný seznam píků<br />
hmotnostní spektrum<br />
842. 515<br />
2366. 275<br />
1170. 657<br />
2518. 023<br />
2054. 866<br />
2264. 945<br />
2723. 231<br />
870. 543<br />
998. 551<br />
1275. 575 1511. 791<br />
2082. 931 2280. 989<br />
1358. 747 2532. 039<br />
807. 405 938. 484 1184. 566<br />
1545. 799 1716. 890<br />
2739. 230<br />
2901. 286 3220. 519<br />
0<br />
800 1450 2100 2750 3400 4050<br />
Mass (m/z )<br />
2707. 224<br />
817.418<br />
870.544<br />
915.461<br />
952.517<br />
998.551<br />
1169.646<br />
1170.658<br />
1254.726<br />
1266.721<br />
1275.575<br />
1282.737<br />
1286.720<br />
1326.762<br />
1340.752<br />
1358.748<br />
1368.781<br />
1383.783<br />
1404.688<br />
1463.900<br />
1511.791<br />
1529.795<br />
1545.801<br />
1566.827<br />
1694.915<br />
2054.867<br />
2092.827<br />
2173.933<br />
2239.145<br />
2264.945<br />
2278.960<br />
2279.997<br />
2280.987<br />
2366.275<br />
2427.017<br />
2518.023<br />
2532.038<br />
2616.210<br />
2707.224<br />
2720.217<br />
2721.235<br />
2722.235<br />
2723.231<br />
2737.223<br />
2807.314<br />
4573.3
Výsledky vyhledávání z programu MS-Fit<br />
nejvyšší<br />
skóre<br />
identifikovaný<br />
protein<br />
exp. vs.<br />
teor. m/z<br />
hodnoty<br />
identifikované peptidové sekvence<br />
nástroje pro další analýzu nezidentifikovaných m/z hodnot
Výsledky vyhledávání z programu Mascot PMF<br />
hity mimo zelený rámeček<br />
jsou významné<br />
nejvyšší<br />
skóre<br />
identifikovaný<br />
protein<br />
parametry<br />
vyhledávání
Detailní popis výsledku vyhledávaní v programu Mascot PMF (I)<br />
skóre a „expect“ hodnota<br />
molekulová hmotnost a pI<br />
sekvenční pokrytí
Detailní popis výsledku vyhledávaní v programu Mascot PMF (II)<br />
exp. vs.<br />
teor. m/z<br />
hodnoty<br />
identifikované<br />
peptidové<br />
sekvence<br />
rozložení<br />
experimentálních<br />
chyb<br />
flat file záznamu<br />
proteinu v databázi
% Intensity<br />
100<br />
90<br />
80<br />
70<br />
60<br />
50<br />
Příklad MSMS spektra s označenými ionty<br />
MS/MS Precursor 1694.915<br />
y13<br />
ion type<br />
m/z<br />
147.11 y1<br />
246.15 y2<br />
359.26 y3<br />
487.33 y4<br />
574.36 y5<br />
673.41 y6<br />
801.49 y7<br />
930.54 y8<br />
1077.58 y9<br />
1178.64 y10<br />
1235.65 y11<br />
1322.67 y12<br />
1419.74 y13<br />
1566.85 y14<br />
40<br />
y7<br />
30<br />
y14<br />
20<br />
10<br />
y1<br />
y2<br />
y3<br />
y4<br />
y5<br />
y6<br />
y8<br />
y9<br />
y11<br />
y12<br />
0<br />
10 350 690 1030 1370 1710<br />
Mass (m/z)
ion type m/z difference AA alt. AA<br />
y1 147.11<br />
y2 246.15 99.04 V<br />
y3 359.26 113.11 L I<br />
y4 487.33 128.07 Q K<br />
y5 574.36 87.03 S<br />
y6 673.41 99.05 V<br />
y7 801.49 128.08 Q K<br />
y8 930.54 129.05 E<br />
y9 1077.58 147.04 F<br />
y10 1178.64 101.06 T<br />
y11 1235.65 57.01 G<br />
y12 1322.67 87.02 S<br />
y13 1419.74 97.07 P<br />
y14 1566.85 147.11 F<br />
odečítáme odspodu<br />
(protože y-ionty)<br />
sequence<br />
FPSGTFEQVSQLV
ozkliknout<br />
informace o parametrech<br />
vyhledávání
http://www.uniprot.org/uniprot/P02774<br />
zde další informace a nástroje
Program mMass (http://www.mmass.org/)<br />
Ke stažení (Windows, Mac OSX, Linux) na adrese http://www.mmass.org/download/
Zpracování spektra v programu mMass<br />
detekce píků manuálně<br />
nebo automaticky
Zadání získaných dat do programu Mascot PMF
Detail dialogového okna programu Mascot PMF
Výsledek vyhledávání v programu Mascot PMF<br />
(zadáno z programu mMass)
Detailní popis výsledku vyhledávaní v programu Mascot PMF (I)<br />
skóre a „expect“ hodnota<br />
molekulová hmotnost a pI<br />
sekvenční pokrytí<br />
(zde je vyšší oproti 43%)
Detailní popis výsledku vyhledávaní v programu Mascot PMF (II)<br />
exp. vs.<br />
teor. m/z<br />
hodnoty<br />
identifikované<br />
peptidové<br />
sekvence<br />
rozložení<br />
experimentálních<br />
chyb<br />
flat file záznamu<br />
proteinu v databázi
Vyhledávací program PROFOUND (pro PMF)
Detail dialogového okna programu PROFOUND
Detail dialogového okna programu MS-Fit v programu mMass
nejvyšší<br />
skóre<br />
Výsledky vyhledávání z programu MS-Fit<br />
identifikovaný<br />
protein<br />
identifikované peptidové sekvence<br />
exp. vs.<br />
teor. m/z<br />
hodnoty<br />
nástroje pro další analýzu nezidentifikovaných m/z hodnot
Automatický výběr píků v programu mMass
Výsledek vyhledávání v programu Mascot PMF<br />
(zadáno z programu mMass po automatickém výběru píků)<br />
mnoho falešných píků<br />
snižují skóre<br />
sekvenční pokrytí<br />
docela dobré