26.05.2014 Views

Metody sekvenování DNA a proteinů

Metody sekvenování DNA a proteinů

Metody sekvenování DNA a proteinů

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Základy bioinformatického<br />

zpracování dat v proteomice<br />

Pavel Řehulka<br />

rehulka@pmfhk.cz


Historie sekvencování <strong>DNA</strong><br />

• nepřímé metody – určení sekvence bílkovin<br />

• 1970: Ray Wu – 12 nukleových bazí – 3 roky práce<br />

‣ 1975: Frederic Sanger & A. R. Coulson – Sangerova<br />

sekvenační metoda<br />

‣ 1977: Allan Maxam a Walter Gilbert – Maxam-Gilbertova<br />

sekvenační metoda<br />

• 1996: Pål Nyrén & Mostafa Ronaghi – pyrosekvencování


Historie sekvencování <strong>DNA</strong><br />

• v dnešní době je rozvoj metod, jež jsou rychlé a pokud<br />

možno levné, například:<br />

– 454 sekvencování – paralelní sekvencování <strong>DNA</strong> na<br />

streptavidinových substrátech v pikolitrových reaktorech<br />

– SMRT (Single molecule real-time) – 1 molekula <strong>DNA</strong>, 1 molekula<br />

<strong>DNA</strong>-polymerázy 20 zeptolitrové nádobce, detekce záblesku po<br />

uvolnění fluorescenčního barviva při navázání značené báze<br />

– detekce bazí el. proudem při průchodu <strong>DNA</strong> nanopóry


Maxam-Gilbertova metoda<br />

• též chemické sekvencování<br />

• vstupem je jednovláknová <strong>DNA</strong> značená radioaktivním<br />

32<br />

P na 5’ (pomocí polynukleotid kinázy) nebo 3’ konci<br />

• rozdělení na 4 části, každá štěpena různými<br />

chemikáliem<br />

• vzniklé různě dlouhé sekvence <strong>DNA</strong> ve všech směsích<br />

jsou separovány gelovou elektroforézou a detekovány<br />

autoradiografií


Maxam-Gilbertova metoda<br />

• guanin: destrukce báze<br />

dimethylsulfátem, destrukce<br />

glykosidické vazby (zahřívání při<br />

neutrální pH), destrukce vazby<br />

(zahřívání při alkalickém pH)<br />

G A+G C+T C<br />

• adenin + guanin: destrukce<br />

báze dimethylsulfátem,<br />

destrukce glykosidické vazby<br />

(zahřívání při neutrální pH),<br />

destrukce vazby (zahřívání při<br />

kyselém pH)<br />

• cytosin a thymin: hydrazinolýza<br />

+ štěpení piperidinem<br />

• cytosin: hydrazinolýza v 2M<br />

NaCl + štěpení piperidinem<br />

5’-TACCGCTTA-3’


Sangerova metoda<br />

• biochemická metoda, též dideoxy metoda nebo primed<br />

synthesis<br />

• pro krátké sekvence jednovláknové <strong>DNA</strong><br />

• využívá se procesu replikace <strong>DNA</strong> v přítomnosti <strong>DNA</strong>polymerázy<br />

• reakční směs:<br />

– primer<br />

– <strong>DNA</strong>-polymeráza<br />

– radioaktivně značené ( 32 P) 2’-deoxyribonukleosidtrifosfáty<br />

– 4 směsi obsahující navíc jednotlivé značené ( 32 P) 2’,3’-<br />

dideoxyribonukleosidtrifosfáty (menší množství, asi 1%)


Sangerova metoda<br />

• <strong>DNA</strong> polymeráza při<br />

náhodném začlenění dideoxy<br />

analogu nemůže dále<br />

syntetizovat => vznik<br />

fragmentu<br />

• separace těchto fragmentů na<br />

polyakrylamidovém gelu s<br />

následnou autoradiografickou<br />

detekcí<br />

ddATP ddTTP<br />

ddCTP ddGTP<br />

sekvenovaný<br />

úsek <strong>DNA</strong><br />

3’-GAATTCATTCGCCAT-5’<br />

5’-CTTAAGTAAGC<br />

primer<br />

syntetizovaný<br />

fragment<br />

reakce ve<br />

směsi s ddCTP<br />

5’-TAAGCGGTA-3’<br />

3’-ATTCGCCAT-5’


Automatizovaná Sangerova metoda<br />

• místo radioaktivního značení ( 32 P) použita fluorescenční detekce<br />

• dnes nejpoužívanější metoda<br />

• reakční směs:<br />

– fluorescenčně značený primer (4 směsi => 4 značky)<br />

– <strong>DNA</strong>-polymeráza<br />

– 2’-deoxyribonukleosidtrifosfáty<br />

– jednotlivé směsi obsahují navíc příslušné 2’,3’-dideoxyribonukleosidtrifosfáty<br />

(menší množství, asi 1%)<br />

• po reakci se směsi smíchají a probíhá separace kapilární elektroforézou s<br />

fluorescenční detekcí na konci kapiláry<br />

A<br />

T<br />

C<br />

G<br />

T A A G C G G T A


Pyrosekvencování<br />

• syntéza nových sekvnencí<br />

<strong>DNA</strong> s různou detekcí<br />

nukleotidů bez elektroforézy<br />

• přítomno spousta enzymů<br />

– <strong>DNA</strong> polymeráza<br />

– ATP sulfuryláza<br />

– luciferáza<br />

– apyráza<br />

• substráty<br />

– adenosinfosfosulfát<br />

– luciferin<br />

• přidávají se nukleotidy<br />

postupně dATP, dGTP, dCTP,<br />

dTTP za sebou<br />

• detekce uvolnění světla (i jeho<br />

intenzita) po uvolnění<br />

pyrofosfátu při začlenění<br />

konkrétního nukleotidu<br />

• na konci spotřeba ATP<br />

luciferázou k oxidaci luciferinu<br />

a degradace přidaného<br />

nukleotidu<br />

Apyrase<br />

Ronaghi M, Genome Res. 2001 Jan;11(1):3-11.<br />

dATP<br />

(d)XMP<br />

Polymerase<br />

…GATCACCTGAAGTCAGCCCTTG…<br />

ACTTCAGTCGGGAAC…<br />

PPi<br />

ATP<br />

Light<br />

ATPsulfurylase<br />

Luciferase


Shotgun sequencing<br />

• též nazýváno „shotgun cloning“<br />

• metoda sekvencování dlouhých <strong>DNA</strong> vláken<br />

• delší sekvence <strong>DNA</strong> (> 800 bazí) fragmentovány na menší kousky<br />

restrikčními endonukleázami (nebo mechanicky)<br />

• <strong>DNA</strong>-fragmenty jsou vloženy do plazmidů<br />

– BAC knihovny (= bacterial artificial chromosome library) – pro větší<br />

fragmenty <strong>DNA</strong>, ty se pak fragmentují na menší, které jsou vnášeny do<br />

bakterií v plazmidech<br />

• plazmidy jsou vneseny do bakterií (obvykle E. coli)<br />

• bakterie se namnoží a <strong>DNA</strong> obsahující analyzovaný fragment se po<br />

vyizolování osekvenuje


Shotgun sequencing<br />

• tyto sekvenované kousky jsou pak reasemblovány zpět<br />

– každá část sekvence musí být osekvenována 5-10x<br />

Strand<br />

Původní<br />

První shotgun sekvence<br />

Druhá shotgun sekvence<br />

Rekonstrukce<br />

Sekvence<br />

TGCAGATTGGCTGACTGAATGCCTG<br />

TGCAGATTGGCTGACT---------<br />

----------------GAATGCCTG<br />

TGCAGATTG----------------<br />

---------GCTGACTGAATGCCTG<br />

TGCAGATTGGCTGACTGAATGCCTG<br />

– problém s repetitivními úseky


Shotgun sequencing<br />

http://www.bio.davidson.edu/courses/GENOMICS/method/shotgun.html


c<strong>DNA</strong> knihovny a ESTs<br />

• c<strong>DNA</strong> = complementary <strong>DNA</strong> nebo též copy <strong>DNA</strong><br />

• c<strong>DNA</strong> není přímo genomová <strong>DNA</strong>, ale pochází z přepisu mRNA,<br />

tzn. kóduje exprimovaný gen (bílkovinu)<br />

• tkáň -> lýza buněk -> izolace mRNA<br />

• hybridizace s poly-T primerem<br />

• vytvoření kopie (= c<strong>DNA</strong>) pomocí reverzní transkriptázy<br />

• odbourání mRNA alkalickým roztokem<br />

• syntéza komplementárního řetězce <strong>DNA</strong> pomocí <strong>DNA</strong>-polymerázy<br />

(spárovaný 3’ konec slouží jako primer)<br />

• sekvencováním c<strong>DNA</strong> dostáváme tzv. EST (expressed sequence<br />

tag) – viz<br />

http://www.ncbi.nlm.nih.gov/dbEST/index.html


Sekvencování <strong>proteinů</strong><br />

• Určení N-koncové aminokyseliny<br />

• Edmanova degradace<br />

• sekvencování peptidů a <strong>proteinů</strong> pomocí hmotnostní<br />

spektrometrie


Určení koncové aminokyseliny<br />

• provádí se pomocí reakce dansyl chloridu s N-koncovou aminoskupinou a<br />

po hydrolýze peptidu/proteinu se identifikovala N-koncová aminokyselina<br />

chromatograficky<br />

• dříve se též provádělo pomocí 1-fluoro-2,4-dinitrobenzenu (F. Sanger,<br />

sekvenace insulinu)<br />

pH 8-10<br />

... 20 deg.C, 1 h<br />

6M HCl<br />

... 105 deg.C, 16 h<br />

... n


Edmanova degradace<br />

• N-koncová aminoskupina<br />

peptidu/proteinu reaguje s<br />

fenylisothiokyanátem v<br />

bazickém prostředí za<br />

zvýšené teploty (2,5 %<br />

PITC ve směsi pyridin/voda<br />

= 1:1, 30 min, 50 o C)<br />

Phenylisothiocyanate<br />

(PITC)<br />

N-terminus of the protein immobilized<br />

on a solid support<br />

PITC coupling<br />

Cleavage<br />

• v kyselém prostředí (100 %<br />

TFA, 10 min, 50 o C) pak<br />

odštěpuje 5-thiozolinonový<br />

derivát N-koncové<br />

aminokyseliny, který je po<br />

konverzi (1M HCl, 10 min,<br />

80 o C) na<br />

fenylthiohydantoinový<br />

derivát identifikován<br />

Phenylthiocarbamyl-derivatized protein<br />

5-Thiozolinone derivative<br />

N-terminus of the degraded protein<br />

immobilized on a solid support<br />

Conversion<br />

• zbytek peptidu/proteinu je<br />

podroben dalšímu<br />

identifikačnímu cyklu<br />

Phenylthiohydantoin derivative<br />

next degradation cycle


• dnes plně automatizovaný proces<br />

Edmanova degradace<br />

• nutná dostatečné množství čistého proteinu nebo alespoň izolovaného<br />

na membráně<br />

• reagenty jsou dodávány v plynné fázi, peptid/protein je ukotven na<br />

pevném nosiči (kvarterní ammoniová sůl Polybren)<br />

• citlivost: 1-5 pmol pro více než 20 cyklů (tj. stanovených aminokyselin)<br />

• délka cyklu: ~ 45 min, tj. asi 3 vzorky/den<br />

• blokovaný N-terminus proteinu => pracné odstraňování modifikace, ne<br />

vždy efektivně úspěšné<br />

• přes spoustu nevýhod ve srovnání s hmotnostní spektrometrií je to<br />

stále alternativní metoda určování sekvence bílkovin


Hmotnostní spektrometrie (MS)<br />

• separace nabitých částic na základě poměru jejich hmotnosti a náboje, tj. m/z<br />

• výsledkem je tzv. hmotnostní spektrum, kde na ose x je vynesena hodnota m/z<br />

a na ose y intenzita odezvy detektoru, často normalizovaná na nejintenzivnější<br />

pík v zobrazovaném rozsahu m/z<br />

Ion Source Mass Analyzer Detector<br />

+ +<br />

+<br />

+ + +<br />

+ + +<br />

+<br />

-<br />

%<br />

Recorded<br />

Spectrum<br />

m/z


Tandemová hmotnostní spektrometrie<br />

(MS/MS)<br />

• spojení dvou hmotnostně spektrometrických analýz v prostoru nebo<br />

čase, oddělených od sebe procesem disociace iontů (většinou kolizí s<br />

neutrálním plynem)<br />

• výsledkem je opět hmotnostní spektrum, popisující vztah rodičovského<br />

iontu a jeho fragmentů<br />

• důležité pro získání strukturní informace rodičovského iontu<br />

ionization<br />

MS 1<br />

precursor<br />

ion selection<br />

fragmentation<br />

of selected<br />

precursor<br />

MS 2<br />

analysis of<br />

fragment ions


Trojitý kvadupól – příklad MS/MS přístroje<br />

ion source<br />

detector<br />

+<br />

Q0<br />

ion<br />

transmission<br />

Q1<br />

precursor<br />

ion<br />

selection<br />

Q2<br />

collision<br />

cell<br />

Q3<br />

fragment<br />

ion<br />

analysis


Sekvenace <strong>proteinů</strong> pomocí MS<br />

• izolace bílkovin, jejich separace (často gelovou elektroforézou)<br />

• digesce vhodným enzymem (nebo chemicky) na peptidy<br />

• směs peptidů buď přímo nebo po separaci (kapalinovou<br />

chromatografií) analyzujeme pomocí MS/MS<br />

• vzniklé fragmentové ionty umožňují identifikaci/sekvenaci peptidů, a<br />

v důsledku i <strong>proteinů</strong><br />

x 4<br />

y 4<br />

z 4<br />

x 3<br />

z 3<br />

x 2<br />

z 2<br />

x 1<br />

z 1<br />

R1 O R2 O R3 O R4 O R5<br />

H 2<br />

N C C N C C N C C N C C N C<br />

H H H H H H H H H<br />

a 4<br />

b 4<br />

c 4<br />

H +<br />

COOH


Fragmentové ionty peptidů<br />

• [N] – hmotnost N-<br />

koncové skupiny peptidu<br />

• [C] – hmotnost C-<br />

koncové skupiny peptidu<br />

• [M] – součet hmotností<br />

aminokyselinových<br />

zbytků obsažených ve<br />

fragmentovém iontu<br />

• [e] – hmotnost elektronu<br />

Ion type Ion mass<br />

a [N] + [M] – CO – [e]<br />

b [N] + [M] – [e]<br />

c [N] + [M] + NH 3 – [e]<br />

x [C] + [M] + CO – [e]<br />

y [C] + [M] + H 2 – [e]<br />

z [C] + [M] – NH – [e]<br />

d [a-ion] – [part of side chain]<br />

v [y-ion] – [whole side chain]<br />

w [z-ion] – [part of side chain]<br />

immonium ion [M] + H – CO – [e]<br />

internal y m a n [M] + H – CO – [e]<br />

internal y m b n [M] + H – [e]


Struktura fragmentových iontů peptidů<br />

R1 O<br />

H 2<br />

N C C N + C<br />

H<br />

H<br />

R2<br />

H<br />

R3<br />

O<br />

R4<br />

O + C N C C N C C N C<br />

H H H H H H<br />

O<br />

R5<br />

COOH<br />

R1<br />

H 2<br />

N C C N C<br />

H<br />

O<br />

H<br />

HC<br />

H<br />

R'<br />

H + H +<br />

a 2<br />

x 3<br />

d 2<br />

R1 O R2<br />

R3 O R4 O R5<br />

O R4 O<br />

O +<br />

+<br />

H 3<br />

N C C N C C N C COOH HN<br />

C C N C C N<br />

H H H<br />

H H H H H<br />

H H H H<br />

b 2<br />

y 3<br />

v 3<br />

R1 O R2 O<br />

R3 O R4 O R5<br />

R' CH O R4 O<br />

+<br />

NH 3<br />

C + C N C C N C COOH<br />

C C N C C N<br />

H H H<br />

H H H H H<br />

H H H H<br />

H 2<br />

N C C N C C<br />

H 2<br />

N C C N C C<br />

w 3<br />

R5<br />

C COOH<br />

H<br />

R5<br />

H +<br />

C COOH<br />

H<br />

R3<br />

O<br />

R4<br />

H 2<br />

N C C N + C<br />

R3 O<br />

R4<br />

H 2<br />

N C C N C C<br />

O +<br />

R<br />

+<br />

H 2<br />

N CH<br />

H<br />

H<br />

y 3<br />

a 4<br />

H<br />

H<br />

H<br />

y 3<br />

b 4<br />

H<br />

immonium ion


% Intensity<br />

Příklad MS/MS spektra peptidu<br />

• interpretace MS/MS spektra vede k získání částečné<br />

nebo úplné sekvence peptidu<br />

Parent mass [M+H] + 1394.744<br />

112.09 506.24 821.33<br />

129.10 574.21 871.32<br />

175.10 576.16 960.36<br />

211.12 593.26 968.41<br />

100<br />

271.13 689.22 1088.44<br />

y6<br />

90<br />

288.17 706.32 1097.44<br />

80<br />

314.10 774.30 1184.46<br />

70<br />

418.18 777.30 1281.49<br />

60<br />

427.17 802.29 1335.55<br />

50<br />

435.20 804.30<br />

intepreted sequence:<br />

LPSEFDLSAFLR<br />

2254.5<br />

40<br />

30<br />

y1<br />

20<br />

y8<br />

y10<br />

b6<br />

10<br />

y3 y4<br />

y5-NH3<br />

b7<br />

y2<br />

y5<br />

y7<br />

y11<br />

R<br />

y9<br />

0<br />

59.0 341.8 624.6 907.4 1190.2 1473.0<br />

Mass (m/z)


Sekvenční databáze


Od <strong>DNA</strong> k proteinu (eukaryotní buňka)<br />

• transkripcí z <strong>DNA</strong> vzniká<br />

primární RNA-transkript (exony<br />

+ introny)<br />

• modifikace konců primárního<br />

RNA-transkriptu (čepička RNA<br />

+ poly(A) konec)<br />

• vyštěpení intronů v enzymově<br />

katalyzovaném sestřihu RNA<br />

=> vznik mRNA<br />

• transport mRNA z jádra do<br />

cytoplasmy, kde dochází k<br />

translaci a vzniku bílkoviny<br />

• některé procesy probíhají<br />

současně<br />

<strong>DNA</strong><br />

cytoplasma<br />

exony<br />

primární RNA-transkript<br />

čepička RNA<br />

mRNA<br />

mRNA<br />

protein<br />

jádro<br />

gen<br />

introny<br />

transkripce<br />

přidání 5’-čepičky<br />

a poly(A) konce<br />

sestřih<br />

export do<br />

cytoplasmy<br />

translace<br />

AAAAA<br />

AAAAA<br />

AAAAA


Od <strong>DNA</strong> k proteinu (prokaryotní buňka)<br />

• jednodušší proces (absence<br />

jádra)<br />

• 5’-konec mRNA vzniká iniciací<br />

transkripce, 3’-konec je určen<br />

místem terminace genu<br />

<strong>DNA</strong><br />

gen<br />

transkripce<br />

• translace může začít již před<br />

dokončením transkripce<br />

mRNA<br />

translace<br />

protein


Sekvenční databáze<br />

• Historie vzniku databází<br />

• Primární a sekundární databáze<br />

• Nukleotidové sekvenční databáze<br />

• Struktura záznamu nukleotidové sekvence<br />

• Proteinové sekvenční databáze


Historie vzniku databází<br />

• snaha o zpřístupnění výsledků sekvenačních<br />

experimentů a vzájemnou výměnu informací<br />

• 60. léta minulého století – Margaret Dayhoff se<br />

spolupracovníky – Protein Information Resource (PIR)<br />

– sbírka proteinových sekvencí známých v té době<br />

– vyšlo v tištěné podobě jako Atlas of Protein Sequence and<br />

Structure<br />

– původně pouze sekvence <strong>proteinů</strong> z Edmanova <strong>sekvenování</strong>,<br />

později přidávány i nukleotidové sekvence<br />

– byly přidávány i popisy sekvencí => první anotovaná databáze<br />

– 1972 – nutnost převést do el. podoby (nárůst rozsahu) –<br />

distribuce na magn. pásku spolu s programy pro analýzu<br />

vzdálených evolučních příbuzností


Historie vzniku databází<br />

• 1982: vzniká <strong>DNA</strong> sekvenční databáze na European<br />

Molecular Biology Laboratory (EMBL) v Heidelbergu<br />

• krátce nato se připojuje GenBank při National Center for<br />

Biotechnology Information (NCBI) – součást National<br />

Library of Medicine při National Institutes of Health<br />

• o několik let později se připojuje i <strong>DNA</strong> Database of<br />

Japan (DDBJ)<br />

• 1988: sjednocení formy spolupráce a formátu dat mezi<br />

EMBL, GenBank a DDBJ<br />

• dnes: DDBJ / EMBL / GenBank konsorcium tvořené<br />

– the National Institute of Genetics in Mishima, Japan<br />

– the European Bioinformatics Institute (EBI) in Hinxton, UK<br />

– NCBI in Bethesda, Maryland, USA


Historie vzniku databází<br />

• 80. léta minulého století: Amos Bairoch (Ženeva) převedl<br />

PIR Atlas do formátu podobného EMBL formátu pro<br />

nukleotidové sekvence a přidal anotace k proteinovým<br />

sekvencím => PIR+<br />

• 1986: distribuce PIR+ na síti US Bionet (předchůdce<br />

Internetu) – tehdy obsahovala 3900 sekvencí<br />

• později vzniká SwissProt


Typy databází<br />

• hlavní úkol databází – zpřístupnit obsažené sekvence<br />

• primární databáze<br />

– archivní funkce<br />

– obsahují experimentální výsledky s částečnou interpretací<br />

– neobsahují však odborně doplněné popisy mnoha vlastností<br />

vztahujících se k dané sekvenci<br />

• sekundární databáze<br />

– administrované experty<br />

– někdy též nazývané databáze vzorů (pattern databases)<br />

– obsahují výsledky analýzy sekvencí z primárních databází<br />

• kompozitní databáze<br />

– kombinují různé zdroje primárních databází – není nutno<br />

procházet každou primární databázi zvlášť


Příklady databází<br />

primární sekundární kompozitní<br />

DDBJ PROSITE NRDB<br />

EMBL Profiles OWL<br />

GenBank PRINTS<br />

PIR Pfam<br />

SwissProt BLOCKS<br />

TrEMBL IDENTIFY


Nukleotidové sekvenční databáze<br />

• hlavním zdrojem nukleotidových sekvenčních databází je<br />

International Nucleotide Sequence Database<br />

Collaboration – DDBJ / EMBL / GenBank<br />

– nové sekvence lze zadávat do kterékoliv z těchto databází<br />

– každá databáze si spravuje pouze sekvence do ní vložené<br />

– jednou za 24 hodin si databáze navzájem vymění nová data a<br />

celkový obsah konsorcia je synchronizován (umožněno<br />

společným formátem dat)<br />

– primární zdroj sekvenční a biologické informace => mnoho<br />

databází závisí na správnosti údajů v DDBJ / EMBL / GenBank


Konsorcium DDBJ / EMBL / GenBank<br />

Entrez<br />

NIH<br />

NCBI<br />

submissions<br />

updates<br />

GenBank<br />

NIG<br />

submissions<br />

updates<br />

CIB<br />

DDBJ<br />

EMBL<br />

EBI<br />

SRS<br />

submissions<br />

updates<br />

getentry<br />

EMBL


Vlastnosti databází DDBJ / EMBL / GenBank<br />

• pokud pro danou nukleotidovou sekvenci není indikována kódující<br />

sekvence, tak není vytvořen odpovídající záznam v proteinové<br />

databázi<br />

– příslušné porovnávání sekvencí vycházející z proteinových sekvencí<br />

může některé dostupné informace ztratit<br />

• pokud záznam obsahující kódující sekvenci obsahuje chybu, tak tato<br />

chyba může být dále propagována mezi databázemi (i pomocí<br />

odvození dalších sekvencí na základě podobnosti)<br />

• pokud důležitá vlastnost o proteinové sekvenci není na správném<br />

místě, tak programy navržené pro jejich získávání ji mohou ztratit


• FASTA formát<br />

Formáty dat<br />

– jednoduchý formát pro sekvence<br />

• flatfile<br />

– základní jednotka pro informaci o konkrétní sekvenci<br />

– konkrétní formáty pro jednotlivé databáze se od sebe částečně<br />

liší<br />

– ale jeho struktura přesto umožňuje vzájemnou výměnu<br />

vložených sekvencí mezi databázemi


FASTA formát<br />

začátek<br />

nového<br />

záznamu<br />

zdrojová<br />

databáze<br />

(SwissProt)<br />

přístupové<br />

číslo<br />

UniProt<br />

ideintifikátor<br />

krátký popis<br />

definiční řádek<br />

>sp|P48598|IF4E_DROME Eukaryotic translation initiation factor 4E OS=Drosophila melanogaster GN=eIF-4E PE=1 SV=1<br />

MQSDFHRMKNFANPKSMFKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGEPAGN<br />

TATTTAPAGDDAVRTEHLYKHPLMNVWTLWYLENDRSKSWEDMQNEITSFDTVEDFWSLY<br />

NHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRWVITLNKSSKTDLDNLWLDVLLCL<br />

IGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAALEIGHKLRDALRLGRNNSLQYQ<br />

LHKDTMVKQGSNVKSIYTL<br />

sekvence proteinu<br />

(obvykle 60 znaků<br />

na řádek)<br />

http://www.uniprot.org/uniprot/P48598.fasta


FASTA formát – více záznamů<br />

>sp|Q55D85|CAS1_DICDI Cycloartenol synthase OS=Dictyostelium discoideum GN=cas1 PE=1 SV=1<br />

MTTTNWSLKVDRGRQTWEYSQEKKEATDVDIHLLRLKEPGTHCPEGCDLNRAKTPQQAIK<br />

KAFQYFSKVQTEDGHWAGDYGGPMFLLPGLVITCYVTGYQLPESTQREIIRYLFNRQNPV<br />

DGGWGLHIEAHSDIFGTTLQYVSLRLLGVPADHPSVVKARTFLLQNGGATGIPSWGKFWL<br />

ATLNAYDWNGLNPIPIEFWLLPYNLPIAPGRWWCHCRMVYLPMSYIYAKKTTGPLTDLVK<br />

DLRREIYCQEYEKINWSEQRNNISKLDMYYEHTSLLNVINGSLNAYEKVHSKWLRDKAID<br />

YTFDHIRYEDEQTKYIDIGPVNKTVNMLCVWDREGKSPAFYKHADRLKDYLWLSFDGMKM<br />

QGYNGSQLWDTAFTIQAFMESGIANQFQDCMKLAGHYLDISQVPEDARDMKHYHRHYSKG<br />

AWPFSTVDHGWPISDCTAEGIKSALALRSLPFIEPISLDRIADGINVLLTLQNGDGGWAS<br />

YENTRGPKWLEKFNPSEVFQNIMIDYSYVECSAACIQAMSAFRKHAPNHPRIKEINRSIA<br />

RGVKFIKSIQRQDGSWLGSWGICFTYGTWFGIEGLVASGEPLTSPSIVKACKFLASKQRA<br />

DGGWGESFKSNVTKEYVQHETSQVVNTGWALLSLMSAKYPDRECIERGIKFLIQRQYPNG<br />

DFPQESIIGVFNFNCMISYSNYKNIFPLWALSRYNQLYLKSKI<br />

>sp|Q05581|CAS1_STRCL Clavaminate synthase 1 OS=Streptomyces clavuligerus GN=cs1 PE=1 SV=3<br />

MTSVDCTAYGPELRALAARLPRTPRADLYAFLDAAHTAAASLPGALATALDTFNAEGSED<br />

GHLLLRGLPVEADADLPTTPSSTPAPEDRSLLTMEAMLGLVGRRLGLHTGYRELRSGTVY<br />

HDVYPSPGAHHLSSETSETLLEFHTEMAYHRLQPNYVMLACSRADHERTAATLVASVRKA<br />

LPLLDERTRARLLDRRMPCCVDVAFRGGVDDPGAIAQVKPLYGDADDPFLGYDRELLAPE<br />

DPADKEAVAALSKALDEVTEAVYLEPGDLLIVDNFRTTHARTPFSPRWDGKDRWLHRVYI<br />

RTDRNGQLSGGERAGDVVAFTPRG<br />

>sp|P18503|CAS4_EPHMU Short-chain collagen C4 (Fragment) OS=Ephydatia muelleri PE=2 SV=1<br />

DTGPQGPQGVAGPPGIDGAKGDKGECFYPPPPTCPTCPAGPPGAPGPQGAPGAPGAPGLP<br />

GPAGPQGPKGDKGLPGNDGQPGAPGAPGYDGAKGDKGDTGAPGPQGPKGDQGPKGDQGYK<br />

GDAGLPGQPGQTGAPGKDGQDGAKGDKGDQGPAGTPGAPGKDGAQGPAGPAGPAGPAGPV<br />

GPTGPQGPQGPKGDVGPQGPQGAPGSNGAVVYIRWGNNVCPAGETNVYSGHIVESSNAND<br />

ANGDYLCLPDTHNAYPPQTQNPLLNLKDVTDSYGKTVPCVACLASGRSTVFTFPDNTVCP<br />

YGWTTEYVGYEAANPKWPGQNLCVDTYFGDKLSQTPCNNLAVIAKGPLNAYSYQPQDVVS<br />

CVVCSI<br />

>sp|P02662|CASA1_BOVIN Alpha-S1-casein OS=Bos taurus GN=CSN1S1 PE=1 SV=2<br />

MKLLILTCLVAVALARPKHPIKHQGLPQEVLNENLLRFFVAPFPEVFGKEKVNELSKDIG<br />

SESTEDQAMEDIKQMEAESISSSEEIVPNSVEQKHIQKEDVPSERYLGYLEQLLRLKKYK<br />

VPQLEIVPNSAEERLHSMKEGIHAQQKEPMIGVNQELAYFYPELFRQFYQLDAYPSGAWY<br />

YVPLGTQYTDAPSFSDIPNPIGSENSEKTTMPLW<br />

počet<br />

záznamů<br />

souhrnné informace<br />

o databázi<br />

UniProt/SwissProt<br />

verze<br />

databáze<br />

Time files compressed : Tue Feb 02 19:18:46 2010<br />

Time files compressed (int) : 1265134726<br />

Time / date of fasta file : Thu Jan 21 06:55:34 2010<br />

Time of fasta files (int) : 1264053334<br />

Number of residues : 180900945<br />

Number of sequences : 514212<br />

Number with invalid residues: 0<br />

Number of sequences too long: 0<br />

Length of longest sequence : 35213<br />

Maximum Accession Length : 11<br />

ftp://ftp.expasy.org/databases/uniprot/knowledgebase/uniprot_sprot.fasta.gz


Flatfile v DDBJ / EMBL / GenBank<br />

• DDBJ a GenBank flatfiles jsou téměř shodné; používají<br />

slovní označení oddílů (lépe srozumitelnější)<br />

• EMBL používá dvojpísmenné prefixy pro jednotlivé řádky<br />

• obsahují 3 hlavní oddíly:<br />

– hlavička (header) – informace o celém záznamu<br />

– vlastnosti (features) – anotace záznamu<br />

– nukleotidová sekvence<br />

• poslední řádek končí znaky //


LOCUS DMU54469 2881 bp <strong>DNA</strong> linear INV 22-FEB-1998<br />

DEFINITION Drosophila melanogaster eukaryotic initiation factor 4E (eIF4E)<br />

gene, alternative splice products, complete cds.<br />

ACCESSION U54469<br />

VERSION U54469.1 GI:1322283<br />

KEYWORDS .<br />

SOURCE Drosophila melanogaster (fruit fly)<br />

ORGANISM Drosophila melanogaster<br />

Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota;<br />

Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha;<br />

Ephydroidea; Drosophilidae; Drosophila; Sophophora.<br />

REFERENCE 1 (bases 1 to 2881)<br />

AUTHORS Lavoie,C.A., Lachance,P.E., Sonenberg,N. and Lasko,P.<br />

TITLE Alternatively spliced transcripts from the Drosophila eIF4E gene<br />

produce two different Cap-binding proteins<br />

JOURNAL J. Biol. Chem. 271 (27), 16393-16398 (1996)<br />

PUBMED 8663200<br />

REFERENCE 2 (bases 1 to 2881)<br />

AUTHORS Lasko,P.F.<br />

TITLE Direct Submission<br />

JOURNAL Submitted (09-APR-1996) Paul F. Lasko, Biology, McGill University,<br />

1205 Avenue Docteur Penfield, Montreal, QC H3A 1B1, Canada<br />

FEATURES<br />

Location/Qualifiers<br />

source 1..2881<br />

/organism="Drosophila melanogaster"<br />

/mol_type="genomic <strong>DNA</strong>"<br />

/db_xref="taxon:7227"<br />

/chromosome="3"<br />

/map="67A8-B2"<br />

gene 80..2881<br />

/gene="eIF4E"<br />

mRNA<br />

join(80..224,892..1458,1550..1920,1986..2085,2317..2404,<br />

2466..2881)<br />

/gene="eIF4E"<br />

/product="eukaryotic initiation factor 4E-I"<br />

mRNA<br />

join(80..224,1129..1458,1550..1920,1986..2085,2317..2404,<br />

2466..2881)<br />

/gene="eIF4E"<br />

/product="eukaryotic initiation factor 4E-I"<br />

mRNA<br />

join(80..224,1550..1920,1986..2085,2317..2404,2466..2881)<br />

/gene="eIF4E"<br />

/product="eukaryotic initiation factor 4E-II"<br />

CDS<br />

join(201..224,1550..1920,1986..2085,2317..2404,2466..2629)<br />

/gene="eIF4E"<br />

/note="Method: conceptual translation with partial peptide<br />

sequencing"<br />

/codon_start=1<br />

/product="eukaryotic initiation factor 4E-II"<br />

/protein_id="AAC03524.1"<br />

/db_xref="GI:1322284"<br />

/translation="MVVLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETG<br />

EPAGNTATTTAPAGDDAVRTEHLYKHPLMNVWTLWYLENDRSKSWEDMQNEITSFDTV<br />

EDFWSLYNHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRWVITLNKSSKTDLDN<br />

LWLDVLLCLIGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAALEIGHKLRDAL<br />

RLGRNNSLQYQLHKDTMVKQGSNVKSIYTL"<br />

CDS<br />

join(1402..1458,1550..1920,1986..2085,2317..2404,<br />

2466..2629)<br />

/gene="eIF4E"<br />

/note="Method: conceptual translation with partial peptide<br />

sequencing; two alternatively spliced transcripts both<br />

encode 4E-I"<br />

/codon_start=1<br />

/product="eukaryotic initiation factor 4E-I"<br />

/protein_id="AAC03525.1"<br />

/db_xref="GI:1322285"<br />

/translation="MQSDFHRMKNFANPKSMFKTSAPSTEQGRPEPPTSAAAPAEAKD<br />

VKPKEDPQETGEPAGNTATTTAPAGDDAVRTEHLYKHPLMNVWTLWYLENDRSKSWED<br />

MQNEITSFDTVEDFWSLYNHIKPPSEIKLGSDYSLFKKNIRPMWEDAANKQGGRWVIT<br />

LNKSSKTDLDNLWLDVLLCLIGEAFDHSDQICGAVINIRGKSNKISIWTADGNNEEAA<br />

LEIGHKLRDALRLGRNNSLQYQLHKDTMVKQGSNVKSIYTL"<br />

ORIGIN<br />

1 cggttgcttg ggttttataa catcagtcag tgacaggcat ttccagagtt gccctgttca<br />

61 acaatcgata gctgcctttg gccaccaaaa tcccaaactt aattaaagaa ttaaataatt<br />

121 cgaataataa ttaagcccag taacctacgc agcttgagtg cgtaaccgat atctagtata<br />

Flatfile v GenBank a EMBL - příklad<br />

ID U54469; SV 1; linear; genomic <strong>DNA</strong>; STD; INV; 2881 BP.<br />

XX<br />

AC U54469;<br />

XX<br />

DT 19-MAY-1996 (Rel. 47, Created)<br />

DT 17-APR-2005 (Rel. 83, Last updated, Version 4)<br />

XX<br />

DE Drosophila melanogaster eukaryotic initiation factor 4E (eIF4E) gene,<br />

DE alternative splice products, complete cds.<br />

XX<br />

KW .<br />

XX<br />

OS Drosophila melanogaster (fruit fly)<br />

OC Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera;<br />

OC Endopterygota; Diptera; Brachycera; Muscomorpha; Ephydroidea;<br />

OC Drosophilidae; Drosophila; Sophophora.<br />

XX<br />

RN [1]<br />

RP 1-2881<br />

RX DOI; 10.1074/jbc.271.27.16393<br />

RX PUBMED; 8663200.<br />

RA Lavoie C.A., Lachance P.E.D., Sonenberg N., Lasko P.;<br />

RT "Alternatively spliced transcripts from the Drosophila eIF4E gene produce<br />

RT two different Cap-binding proteins";<br />

RL J. Biol. Chem. 271(27):16393-16398(1996).<br />

XX<br />

RN [2]<br />

RP 1-2881<br />

RA Lasko P.F.;<br />

RT ;<br />

RL Submitted (09-APR-1996) to the EMBL/GenBank/DDBJ databases.<br />

RL Paul F. Lasko, Biology, McGill University, 1205 Avenue Docteur Penfield,<br />

RL Montreal, QC H3A 1B1, Canada<br />

XX<br />

FH Key Location/Qualifiers<br />

FH<br />

FT source 1..2881<br />

FT<br />

/organism="Drosophila melanogaster"<br />

FT<br />

/chromosome="3"<br />

FT<br />

/map="67A8-B2"<br />

FT<br />

/mol_type="genomic <strong>DNA</strong>"<br />

FT<br />

/db_xref="taxon:7227"<br />

FT mRNA join(80..224,1129..1458,1550..1920,1986..2085,2317..2404,<br />

FT 2466..2881)<br />

FT<br />

/gene="Eif4E"<br />

FT<br />

/product="eukaryotic initiation factor 4E-I"<br />

FT mRNA join(80..224,892..1458,1550..1920,1986..2085,2317..2404,<br />

FT 2466..2881)<br />

FT<br />

/gene="Eif4E"<br />

FT<br />

/product="eukaryotic initiation factor 4E-I"<br />

FT mRNA join(80..224,1550..1920,1986..2085,2317..2404,2466..2881)<br />

FT<br />

/gene="Eif4E"<br />

FT<br />

/product="eukaryotic initiation factor 4E-II"<br />

FT CDS join(201..224,1550..1920,1986..2085,2317..2404,2466..2629)<br />

FT<br />

/codon_start=1<br />

FT<br />

/gene="Eif4E"<br />

FT<br />

/product="eukaryotic initiation factor 4E-II"<br />

FT<br />

/note="Method: conceptual translation with partial peptide<br />

FT<br />

sequencing."<br />

FT<br />

/db_xref="FLYBASE:FBgn0015218"<br />

FT<br />

/db_xref="GOA:P48598"<br />

FT<br />

/db_xref="InterPro:IPR001040"<br />

FT<br />

/db_xref="InterPro:IPR019770"<br />

FT<br />

/db_xref="UniProtKB/Swiss-Prot:P48598"<br />

FT<br />

/protein_id="AAC03524.1"<br />

FT<br />

/translation="MVVLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGE


Příklad:<br />

Eukaryotic translation initiation factor 4E<br />

• http://www.uniprot.org/uniprot/P48598<br />

• http://www.ebi.ac.uk/cgibin/expasyfetch?U54469<br />

• http://www.ncbi.nlm.nih.gov/nuccore/132228<br />

3?report=genbank<br />

• http://getentry.ddbj.nig.ac.jp/search/get_<br />

entry?accnumber=U54469


Third party annotation (TPA)<br />

• http://www.ncbi.nlm.nih.gov/genbank/TPA.html<br />

• databáze navržená pro doplnění experimentálních /<br />

odvozených informací doplňující / potvrzující informace<br />

poskytnuté zadavatelem sekvence<br />

• vhodné pro ostatní vědce nemající přímý přístup k<br />

databázové položce<br />

• TPA dataset obsahuje<br />

– reanotace existujících položek<br />

– kombinace nových sekvencí a existujících primárních položek<br />

– anotace archivu a celých genomových shotgun dat<br />

• př.: http://www.ncbi.nlm.nih.gov/nuccore/28317386


RefSeq projekt<br />

• http://www.ncbi.nlm.nih.gov/RefSeq/<br />

• administrovaná sekundární databáze s cílem poskytnout souhrnný,<br />

integrovaný a neredundantní soubor sekvencí jak z genomické, tak<br />

transkripční a proteinové úrovně pro stále se zvyšující počet<br />

organismů<br />

• důvodem vzniku byla redundance sekvencí a nejasnost původu<br />

záznamu (experiment vs. počítačové odvození)<br />

• referenční sekvenci pro každou molekulu (<strong>DNA</strong>, mRNA, protein)<br />

• opět vyžaduje hodně práce biologických odborníků<br />

• 2+6 formát přístupového kódu<br />

experimentální<br />

data<br />

genomická<br />

anotace<br />

genomický<br />

úsek (<strong>DNA</strong>)<br />

NT_123456<br />

mRNA<br />

NM_123456<br />

XM_123456<br />

modelová mRNA<br />

protein<br />

NP_123456<br />

XP_123456<br />

modelový protein


EMBL Genome Reviews<br />

• http://www.ebi.ac.uk/GenomeReviews/<br />

• přechází na Ensembl Genomes –<br />

http://www.ensemblgenomes.org/<br />

• opět důvodem překlenutí nedovoleného přístupu pro<br />

ostatní<br />

• sekundární databáze pro administrované verze<br />

kompletních genomových sekvencí v DDBJ / EMBL /<br />

GenBank<br />

• přidané další informace např. z UniProt knowledgebase,<br />

Gene Ontology Annotation (GOA), InterPro a pod.<br />

• synchronizace s databází UniProt


Proteinové sekvenční databáze<br />

• vznikly hlavně z důvodu analýzy <strong>proteinů</strong> kódovaných v<br />

genomech<br />

• důležité obzvláště s příchodem aplikací hmotnostní<br />

spektrometrie v analýze <strong>proteinů</strong> (mj. analýza<br />

posttranslačních modifikací)<br />

• z větší části jsou to sekundární databáze protože<br />

obsahují sekvence odvozené z <strong>DNA</strong> databází


Proteinové sekvenční databáze – příklady<br />

• GenPept<br />

– jen pro proteinové sekvence odvozené translací nukleotidových<br />

sekvencí<br />

– dnes součástí NCBI Protein - http://www.ncbi.nlm.nih.gov/protein<br />

• RefSeq – obsahuje též proteinové sekvence (pro<br />

vybrané organismy)<br />

– http://www.ncbi.nlm.nih.gov/RefSeq/<br />

• UniProt – administrovaná databáze; kompozit SwissProt,<br />

TrEMBL a PIR-PSD – http://www.uniprot.org<br />

– UniProt Archive (UniParc) – vkládání nových sekvencí<br />

– UniProt Knowledgebase – rozšíření práce původně prováděné<br />

se SwissProt, TrEMBL a PIR-PSD s cílem poskytnout expertní<br />

administrovanou databázi<br />

– UniRef – UniProt nonredundant reference database – poskytuje<br />

neredundantní pohled na data v UniParc a UniProt<br />

Knowledgebase


UniProt Archive (UniParc)<br />

• podstatná část sekvenčních dat <strong>proteinů</strong> pochází z přímé sekvenace<br />

<strong>proteinů</strong><br />

– SwissProt, TrEMBL, PIR-PSD<br />

– patentové aplikace, PDB<br />

– IPI, RefSeq, FlyBase, WormBase<br />

• UniParc dává dohromady tyto zdroje (spolu s přímým zadáváním<br />

sekvencí)<br />

• každá sekvence reprezentována pouze jednou svým jedinečným<br />

identifikačním číslem<br />

– křížové referencování se zdrojovými databázemi (včetně verze vložené<br />

sekvence) spolu s označením stavu sekvence<br />

• UniParc nemá žádné anotace sekvencí – ty jsou dostupné přes<br />

původní databáze<br />

• UniParc slouží k párovému přikládání sekvencí<br />

– UniProt NREF 100, UniProt NREF 90, UniProt NREF 50 (UniRef<br />

klastry) – seskupovány sekvence bez ohledu na druh


UniProt Knowledgebase<br />

• SwissProt – manuálně anotované záznamy založené na<br />

informaci z literatury + administrátorem vyhodnocené<br />

počítačové analýzy sekvencí<br />

• TrEMBL – počítačové anotované záznamy čekající na<br />

manuální anotaci (CDS z EMBL, které nejsou ve<br />

SwissProt)<br />

• také PIR-PSD – záznamy, které nejsou ve<br />

SwissProt/TrEMBL


UniProt Knowledgebase<br />

• Knowledgebase je také neredundantní – snaha popsat<br />

produkty odvozené z jednoho genu (nebo genů) jednoho<br />

druhu organismu<br />

– jedno přístupové číslo spolu s identifikátorama isoforem<br />

(alternativní sestřihy, proteolytické štěpy, post-translační<br />

modifikace)<br />

• rozsáhlé křížové reference => rozbočovač pro<br />

biomolekulární informace<br />

– http://www.uniprot.org/uniprot/P10896<br />

• např. link k SWISS-2DPAGE<br />

– http://www.expasy.org/ch2d/


UniProt – tok dat z primárních zdrojů<br />

UniProt NREF 50<br />

UniProt NREF 90<br />

UniProt NREF 100<br />

Proteome<br />

Sets<br />

UniProt Knowledgebase<br />

SwissProt + TrEMBL<br />

IPI<br />

UniProt Archive<br />

Sub/<br />

Peptide<br />

Data<br />

DDBJ/<br />

EMBL/<br />

GenBank<br />

VEGA<br />

PDB<br />

Patent<br />

Data<br />

WGS EnsEMBL RefSeq FlyBase WormBase<br />

Database sources


UniProt<br />

http://www.uniprot.org/


ID IF4E_DROME Reviewed; 259 AA.<br />

AC P48598; A4V1Q6; Q95SV3; Q9VSX8; Q9VSX9;<br />

DT 01-FEB-1996, integrated into UniProtKB/Swiss-Prot.<br />

DT 01-FEB-1996, sequence version 1.<br />

DT 20-APR-2010, entry version 89.<br />

DE RecName: Full=Eukaryotic translation initiation factor 4E;<br />

DE<br />

Short=eIF-4E;<br />

DE<br />

Short=eIF4E;<br />

DE AltName: Full=mRNA cap-binding protein;<br />

DE AltName: Full=eIF-4F 25 kDa subunit;<br />

GN Name=eIF-4E; Synonyms=Eif4e, EIF4F; ORFNames=CG4035;<br />

OS Drosophila melanogaster (Fruit fly).<br />

OC Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota;<br />

OC Neoptera; Endopterygota; Diptera; Brachycera; Muscomorpha;<br />

OC Ephydroidea; Drosophilidae; Drosophila; Sophophora.<br />

OX NCBI_TaxID=7227;<br />

RN [1]<br />

RP NUCLEOTIDE SEQUENCE [MRNA] (ISOFORM I), AND DEVELOPMENTAL STAGE.<br />

RX MEDLINE=95260867; PubMed=7742371;<br />

RA Hernandez G., Sierra J.M.;<br />

RT "Translation initiation factor eIF-4E from Drosophila: c<strong>DNA</strong> sequence<br />

RT and expression of the gene.";<br />

RL Biochim. Biophys. Acta 1261:427-431(1995).<br />

RN [2]<br />

RP NUCLEOTIDE SEQUENCE [GENOMIC <strong>DNA</strong>] (ISOFORMS I AND II), AND FUNCTION.<br />

RX MEDLINE=96279193; PubMed=8663200; DOI=10.1074/jbc.271.27.16393;<br />

RA Lavoie C.A., Lachance P.E.D., Sonenberg N., Lasko P.;<br />

RT "Alternatively spliced transcripts from the Drosophila eIF4E gene<br />

RT produce two different Cap-binding proteins.";<br />

RL J. Biol. Chem. 271:16393-16398(1996).<br />

RN [3]<br />

RP NUCLEOTIDE SEQUENCE [GENOMIC <strong>DNA</strong>] (ISOFORMS I AND II), TISSUE<br />

RP SPECIFICITY, AND DEVELOPMENTAL STAGE.<br />

RC STRAIN=Canton-S;<br />

RX MEDLINE=97218035; PubMed=9065696; DOI=10.1007/s004380050365;<br />

RA Hernandez G., del Corral R., Santoyo J., Campuzano S., Sierra J.M.;<br />

RT "Localization, structure and expression of the gene for translation<br />

RT initiation factor eIF-4E from Drosophila melanogaster.";<br />

RL Mol. Gen. Genet. 253:624-633(1997).<br />

RN [4]<br />

RP NUCLEOTIDE SEQUENCE [LARGE SCALE GENOMIC <strong>DNA</strong>].<br />

RC STRAIN=Berkeley;<br />

RX MEDLINE=20196006; PubMed=10731132; DOI=10.1126/science.287.5461.2185;<br />

RA Adams M.D., Celniker S.E., Holt R.A., Evans C.A., Gocayne J.D.,<br />

RA Amanatides P.G., Scherer S.E., Li P.W., Hoskins R.A., Galle R.F.,<br />

RA George R.A., Lewis S.E., Richards S., Ashburner M., Henderson S.N.,<br />

RA Sutton G.G., Wortman J.R., Yandell M.D., Zhang Q., Chen L.X.,<br />

RA Brandon R.C., Rogers Y.-H.C., Blazej R.G., Champe M., Pfeiffer B.D.,<br />

RA Wan K.H., Doyle C., Baxter E.G., Helt G., Nelson C.R., Miklos G.L.G.,<br />

RA Abril J.F., Agbayani A., An H.-J., Andrews-Pfannkoch C., Baldwin D.,<br />

RA Ballew R.M., Basu A., Baxendale J., Bayraktaroglu L., Beasley E.M.,<br />

RA Beeson K.Y., Benos P.V., Berman B.P., Bhandari D., Bolshakov S.,<br />

RA Borkova D., Botchan M.R., Bouck J., Brokstein P., Brottier P.,<br />

RA Burtis K.C., Busam D.A., Butler H., Cadieu E., Center A., Chandra I.,<br />

RA Cherry J.M., Cawley S., Dahlke C., Davenport L.B., Davies P.,<br />

Flatfile v UniProtu - příklad<br />

http://www.uniprot.org/uniprot/P48598


EMBL-EBI<br />

http://www.ebi.ac.uk/


NCBI – Natinal Center for Biotechnology Information<br />

http://www.ncbi.nlm.nih.gov/


Nástroje pro práci<br />

se sekvenčními databázemi


Databázové nástroje<br />

• ExPASy, UniProt, NCBI – nástroje<br />

• Mascot – identifikace <strong>proteinů</strong><br />

• BLAST (pro nukleové kyseliny a proteiny)


ExPASy – Expert Protein Analysis Server<br />

http://www.expasy.org/<br />

• odkazy na databáze<br />

• užitečné programy a nástroje<br />

• zdroje informací pro výuku a návody k<br />

použití


ozebereme<br />

podrobněji<br />

ExPASy – http://www.expasy.org/


UniProt – http://www.uniprot.org/


UniProt – vyhledávání (Search)<br />

http://www.uniprot.org/<br />

vyhledávání v<br />

• základních datech<br />

– Protein Knowledgebase (UniProtKB)<br />

– Sequence Clusters (UniRef)<br />

– Sequence Archive (UniParc)<br />

• doplňující data<br />

• různé informace


Protein Knowledgebase – UniProtKB<br />

http://www.uniprot.org/uniprot/?query=trypsin&sort=score


Sequence Clusters (UniRef)<br />

http://www.uniprot.org/uniref/UniRef50_P35042<br />

reprezentativní<br />

sekvence<br />

64 bílkovin v klastru


UniProt – další nástroje<br />

• BLAST – párové přiložení sekvencí<br />

• Align – vícenásobné přiložení sekvencí<br />

(ClustalW algoritmus)<br />

• Retrieve – dávkové získání sekvencí na<br />

základě identifikátorů sekvencí<br />

• ID Mapping – mapování identifikátorů v<br />

jednotlivých databázích


UniProt – BLAST<br />

http://services.uniprot.org/blast/blast-20100427-2222061727<br />

zadaná<br />

sekvence<br />

výsledky<br />

párového<br />

přiložení<br />

detail


UniProt – BLAST (detail)<br />

http://services.uniprot.org/blastalignment/blast-20100427-2222061727/P06871#align-info0<br />

informace o<br />

párovém přiložení<br />

(ID sekvence,<br />

skóre, atd.)<br />

zadaná<br />

sekvence<br />

přiřazená<br />

sekvence z<br />

databáze<br />

informace o<br />

totožnosti, resp.<br />

podobnosti residuí


UniProt – Align (ClustalW)<br />

http://services.uniprot.org/clustalw/clustalw2-20100427-2148368204<br />

zadání<br />

a<br />

výsledek


UniProt – Retrieve<br />

zadané<br />

identifikátory<br />

sekvencí<br />

různé formáty<br />

výstupních dat


UniProt – ID Mapping<br />

zadané<br />

identifikátory<br />

sekvencí<br />

identifikační čísla v<br />

databázi<br />

EMBL/GenBank/DDBJ<br />

zadaných čísel


ExPASy – databáze<br />

http://www.expasy.org/databases.html<br />

mezi dalšími např.<br />

• databáze obrazů 2D<br />

gelů (SWISS-<br />

2DPAGE)<br />

• databáze glykanů<br />

(GlycoSuiteDB)


ExPASy – nástroje<br />

http://www.expasy.org/tools/<br />

mnoho nástrojů, jak na ExPASy serveru, tak mimo, rozdělených do několika<br />

kategorií:<br />

• identifikace a charakterizace <strong>proteinů</strong><br />

• identifikace a charakterizace <strong>proteinů</strong> pomocí peptidového mapování<br />

• identifikace a charakterizace <strong>proteinů</strong> pomocí tandemové hmotnostni<br />

spektrometrie<br />

• idetifikace pomocí pI, MW nebo aminokyselinového složení<br />

• ostatní predikční a charakterizační nástroje<br />

• ostatní proteomické nástroje<br />

• vyhodnocování MS dat (vizualizace, kvantifikace atd.)<br />

• analýza dat z 2D gelové elektroforézy<br />

• překlad <strong>DNA</strong> sekvencí na proteinové sekvence<br />

• podobnostní vyhledávání<br />

• vyhledávání vzorů a profilů<br />

• predikce post-translačních modifikací, topologií<br />

• analýza primární, sekundární, terciární a kvarterní struktury <strong>proteinů</strong><br />

• přiložení sekvencí (párové, násobné)<br />

• fylogenetická analýza aj.


• návrh<br />

teoretických<br />

struktur<br />

glykanů/glykopept<br />

idů na základě<br />

experimentálně<br />

zjištěné<br />

molekulové<br />

hmotnosti<br />

ExPASy – GlycoMod<br />

http://www.expasy.org/tools/glycomod/<br />

vložení<br />

experimentálních<br />

hodnot<br />

nastavení<br />

parametrů


ExPASy – GlycoMod (příklad výsledku)<br />

identifikovaný<br />

N-glykan<br />

odkaz do<br />

databáze<br />

GlycoSuiteDB


ExPASy – predikční proteomické nástroje<br />

http://www.expasy.org/tools/<br />

• ProtParam – fyzikálně-chemické parametry proteinové<br />

sekvence (aminokyselinové složení, elementární složení,<br />

izoelektrický bod, extinkční koeficient)<br />

• Compute pI/Mw – spočítá hodnotu pI a molekulové<br />

hmotnosti jak pro sekvence v UniProt (pomocí ID<br />

sekvence), tak pro uževatelem zadanou sekvenci<br />

• GlycanMass – spočítá hmotnost oligosacharidové struktury<br />

• PeptideCutter – predikce štěpných míst v proteinové<br />

sekvenci<br />

• PeptideMass – spočítá teoretické hmotnosti peptidů (spolu<br />

s posttranslačními modifikacemi uvedenými v databázi) po<br />

digesci proteinu<br />

• IsotopIdent – predikce teoretické isotopové distribuce<br />

peptidy, proteinu polynukleotidu nebo jiné chem látky


ExPASy – ProtParam<br />

http://www.expasy.org/tools/protparam.html<br />

vložení ID<br />

proteinu nebo<br />

sekvence<br />

část výpisu<br />

výsledných<br />

hodnot<br />

pro výpočet hodnot pI/Mw lze analogicky<br />

použít program Compute pI/Mw<br />

(http://www.expasy.org/tools/pi_tool.html)


ExPASy – PeptideMass<br />

http://www.expasy.org/tools/peptide-mass.html<br />

vložení ID<br />

proteinu nebo<br />

sekvence<br />

část výpisu<br />

výsledných<br />

hodnot<br />

zadání<br />

parametrů<br />

teoretického<br />

štěpení


Nástroje pro identifikaci <strong>proteinů</strong> pomocí MS dat<br />

• Mascot – databázové vyhledávaní a identifikace<br />

<strong>proteinů</strong> s MS a/nebo MSMS daty (Matrix Science<br />

Ltd., London)<br />

• ProFound – databázové vyhledávaní a identifikace<br />

<strong>proteinů</strong> s MS daty (MSMS data – program X!<br />

Tandem a X! Hunter); též predikční nástroje (The<br />

Rockefeller University, New York)<br />

• ProteinProspector – databázové vyhledávání +<br />

predikční nástroje pro identifikaci <strong>proteinů</strong> z MS a<br />

MSMS dat (University of California, San Francisco)


Mascot<br />

http://www.matrixscience.com/search_form_select.html<br />

tři nástroje pro vyhledávání:<br />

• Peptide Mass Fingerprinting<br />

– nástroj pro prohledávání<br />

databáze na základě<br />

metody otisku prstu (MS<br />

data)<br />

• Sequence Query –<br />

vyhledávání na základě<br />

MSMS dat nebo jejich<br />

částečné interpretace<br />

• MS/MS Ion Search –<br />

prohledávání databází s<br />

MSMS daty (vetší soubory)


% Intensity<br />

Typické MS spektrum peptidové směsi po<br />

digesci v gelu<br />

100<br />

90<br />

80<br />

70<br />

1413.7413<br />

1.8E+4<br />

60<br />

925.5274<br />

50<br />

40<br />

30<br />

20<br />

1137.6631<br />

1144.5979 1653.8485<br />

1809.9584<br />

1370.7491<br />

10<br />

1156.5598 1525.6969<br />

842.5183 1320.6467 1688.9136<br />

2212.1663<br />

2529.3186<br />

989.5385 1159.6367 1494.7484<br />

825.0976 1323.6652 1759.9321 1992.9878 2383.9719<br />

2225.1443 2705.1929<br />

0<br />

800 1240 1680 2120 2560 3000<br />

Mass (m/z)


http://www.matrixscience.com/cgi/search_form.pl?FORMVER=2&SEARCH=PMF


% Intensity<br />

100<br />

90<br />

Typické MSMS spektrum vybraného<br />

peptidového prekurzoru<br />

86.0977<br />

136.0765<br />

3249.6<br />

80<br />

70<br />

60<br />

50<br />

101.0736<br />

40<br />

30<br />

20<br />

10<br />

646.3367<br />

201.1172<br />

112.0810 223.1073<br />

288.1706 379.1458<br />

88.0840 251.0971<br />

348.1409<br />

492.2104<br />

183.1031 439.1602 526.1935 639.2639<br />

775.4004<br />

922.4632<br />

1213.5955<br />

0<br />

60 340 620 900 1180 1460<br />

Mass (m/z)


http://www.matrixscience.com/cgi/search_form.pl?FORMVER=2&SEARCH=SQ


BLAST – Basic Local Alignment Search Tool<br />

at NCBI (http://blast.ncbi.nlm.nih.gov/)<br />

porovnávání na<br />

úrovni nukleových<br />

kyselin<br />

porovnání na<br />

základě sekvencí<br />

<strong>proteinů</strong><br />

další nástroje pro<br />

analýzy sekvencí


BLAST at NCBI (http://blast.ncbi.nlm.nih.gov/)<br />

zadávací formulář<br />

výběr databáze<br />

volba algoritmu


BLAST at NCBI (http://blast.ncbi.nlm.nih.gov/)<br />

sekvence z databáze<br />

přiřazená k dotazu


Příklady ke cvičení


Informace o vzorku<br />

• protein byl separován pomocí gelové elektroforézy<br />

• redukce disulfidických můstků byla provedena<br />

dithiothreitolem, následná modifikace cysteinů byla<br />

provedena jodacetamidem (= „Carbamidomethyl (C)“)<br />

• enzymatické štěpení bylo provedeno v gelu pomocí<br />

trypsinu (štěpí za lysinem (K) a argininem (R),<br />

nenásleduje-li prolin)<br />

• hmotnostní analýza byla provedena na hmotnostním<br />

spektrometru typu MALDI-TOF/TOF<br />

• pro databázové vyhledávání použijte jeden z nástrojů<br />

http://www.matrixscience.com/search_form_select.html<br />

http://prospector.ucsf.edu/prospector/mshome.htm


Nastavení databázového vyhledávání (Mascot)<br />

• database: SwissProt<br />

• enzyme: Trypsin<br />

• missed cleavages: 1<br />

• taxonomy: All entries<br />

• fixed modifications: Carbamidomethyl (C)<br />

• variable modifications: Gln->pyro-Glu (N-term Q)<br />

Oxidation (M)<br />

Acetyl (Protein N-term)<br />

• peptide tolerance: 30 ppm<br />

– MSMS tolerance: 300 mmu<br />

• mass values: [M+H] + Monoisotopic


zde doplnit<br />

svoje<br />

m/z hodnoty


Nastavení databázového vyhledávání (Protein Prospector)<br />

• database: SwissProt<br />

• digest: Trypsin<br />

• max missed cleavages: 1<br />

• taxonomy: All<br />

• fixed modifications: Carbamidomethyl (C)<br />

• variable modifications: Peptide N-terminal Gln to pyroGlu<br />

Oxidation of M<br />

Protein N-terminus Acetylated<br />

• peptide tolerance: 30 ppm<br />

– MSMS tolerance: 300 mmu<br />

• mass are: monoisotopic


zde doplnit<br />

svoje<br />

m/z hodnoty


% Intensity<br />

Příklad MS spektra 1<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

915. 462<br />

1254. 727<br />

1326. 763<br />

1529. 795<br />

1694. 917<br />

4800 Ref l ect or Spec #1 M C=>BC[ BP = 1326. 8, 4573]<br />

získaný seznam píků<br />

hmotnostní spektrum<br />

842. 515<br />

2366. 275<br />

1170. 657<br />

2518. 023<br />

2054. 866<br />

2264. 945<br />

2723. 231<br />

870. 543<br />

998. 551<br />

1275. 575 1511. 791<br />

2082. 931 2280. 989<br />

1358. 747 2532. 039<br />

807. 405 938. 484 1184. 566<br />

1545. 799 1716. 890<br />

2739. 230<br />

2901. 286 3220. 519<br />

0<br />

800 1450 2100 2750 3400 4050<br />

Mass (m/z )<br />

2707. 224<br />

817.418<br />

870.544<br />

915.461<br />

952.517<br />

998.551<br />

1169.646<br />

1170.658<br />

1254.726<br />

1266.721<br />

1275.575<br />

1282.737<br />

1286.720<br />

1326.762<br />

1340.752<br />

1358.748<br />

1368.781<br />

1383.783<br />

1404.688<br />

1463.900<br />

1511.791<br />

1529.795<br />

1545.801<br />

1566.827<br />

1694.915<br />

2054.867<br />

2092.827<br />

2173.933<br />

2239.145<br />

2264.945<br />

2278.960<br />

2279.997<br />

2280.987<br />

2366.275<br />

2427.017<br />

2518.023<br />

2532.038<br />

2616.210<br />

2707.224<br />

2720.217<br />

2721.235<br />

2722.235<br />

2723.231<br />

2737.223<br />

2807.314<br />

4573.3


Výsledky vyhledávání z programu MS-Fit<br />

nejvyšší<br />

skóre<br />

identifikovaný<br />

protein<br />

exp. vs.<br />

teor. m/z<br />

hodnoty<br />

identifikované peptidové sekvence<br />

nástroje pro další analýzu nezidentifikovaných m/z hodnot


Výsledky vyhledávání z programu Mascot PMF<br />

hity mimo zelený rámeček<br />

jsou významné<br />

nejvyšší<br />

skóre<br />

identifikovaný<br />

protein<br />

parametry<br />

vyhledávání


Detailní popis výsledku vyhledávaní v programu Mascot PMF (I)<br />

skóre a „expect“ hodnota<br />

molekulová hmotnost a pI<br />

sekvenční pokrytí


Detailní popis výsledku vyhledávaní v programu Mascot PMF (II)<br />

exp. vs.<br />

teor. m/z<br />

hodnoty<br />

identifikované<br />

peptidové<br />

sekvence<br />

rozložení<br />

experimentálních<br />

chyb<br />

flat file záznamu<br />

proteinu v databázi


% Intensity<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

Příklad MSMS spektra s označenými ionty<br />

MS/MS Precursor 1694.915<br />

y13<br />

ion type<br />

m/z<br />

147.11 y1<br />

246.15 y2<br />

359.26 y3<br />

487.33 y4<br />

574.36 y5<br />

673.41 y6<br />

801.49 y7<br />

930.54 y8<br />

1077.58 y9<br />

1178.64 y10<br />

1235.65 y11<br />

1322.67 y12<br />

1419.74 y13<br />

1566.85 y14<br />

40<br />

y7<br />

30<br />

y14<br />

20<br />

10<br />

y1<br />

y2<br />

y3<br />

y4<br />

y5<br />

y6<br />

y8<br />

y9<br />

y11<br />

y12<br />

0<br />

10 350 690 1030 1370 1710<br />

Mass (m/z)


ion type m/z difference AA alt. AA<br />

y1 147.11<br />

y2 246.15 99.04 V<br />

y3 359.26 113.11 L I<br />

y4 487.33 128.07 Q K<br />

y5 574.36 87.03 S<br />

y6 673.41 99.05 V<br />

y7 801.49 128.08 Q K<br />

y8 930.54 129.05 E<br />

y9 1077.58 147.04 F<br />

y10 1178.64 101.06 T<br />

y11 1235.65 57.01 G<br />

y12 1322.67 87.02 S<br />

y13 1419.74 97.07 P<br />

y14 1566.85 147.11 F<br />

odečítáme odspodu<br />

(protože y-ionty)<br />

sequence<br />

FPSGTFEQVSQLV


ozkliknout<br />

informace o parametrech<br />

vyhledávání


http://www.uniprot.org/uniprot/P02774<br />

zde další informace a nástroje


Program mMass (http://www.mmass.org/)<br />

Ke stažení (Windows, Mac OSX, Linux) na adrese http://www.mmass.org/download/


Zpracování spektra v programu mMass<br />

detekce píků manuálně<br />

nebo automaticky


Zadání získaných dat do programu Mascot PMF


Detail dialogového okna programu Mascot PMF


Výsledek vyhledávání v programu Mascot PMF<br />

(zadáno z programu mMass)


Detailní popis výsledku vyhledávaní v programu Mascot PMF (I)<br />

skóre a „expect“ hodnota<br />

molekulová hmotnost a pI<br />

sekvenční pokrytí<br />

(zde je vyšší oproti 43%)


Detailní popis výsledku vyhledávaní v programu Mascot PMF (II)<br />

exp. vs.<br />

teor. m/z<br />

hodnoty<br />

identifikované<br />

peptidové<br />

sekvence<br />

rozložení<br />

experimentálních<br />

chyb<br />

flat file záznamu<br />

proteinu v databázi


Vyhledávací program PROFOUND (pro PMF)


Detail dialogového okna programu PROFOUND


Detail dialogového okna programu MS-Fit v programu mMass


nejvyšší<br />

skóre<br />

Výsledky vyhledávání z programu MS-Fit<br />

identifikovaný<br />

protein<br />

identifikované peptidové sekvence<br />

exp. vs.<br />

teor. m/z<br />

hodnoty<br />

nástroje pro další analýzu nezidentifikovaných m/z hodnot


Automatický výběr píků v programu mMass


Výsledek vyhledávání v programu Mascot PMF<br />

(zadáno z programu mMass po automatickém výběru píků)<br />

mnoho falešných píků<br />

snižují skóre<br />

sekvenční pokrytí<br />

docela dobré

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!