22.01.2015 Views

Bioinformatika KFC/BIN I. Přehled - Univerzita Palackého v Olomouci

Bioinformatika KFC/BIN I. Přehled - Univerzita Palackého v Olomouci

Bioinformatika KFC/BIN I. Přehled - Univerzita Palackého v Olomouci

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Bioinformatika</strong><br />

a<br />

výpočetní biologie<br />

<strong>KFC</strong>/<strong>BIN</strong><br />

I. Přehled<br />

RNDr. Karel Berka, Ph.D.<br />

<strong>Univerzita</strong> Palackého v <strong>Olomouci</strong>


Definice bioinformatiky<br />

(Molecular) bio – informatics: bioinformatics is<br />

conceptualising biology in terms of molecules<br />

(in the sense of physical chemistry) and applying<br />

"informatics techniques" (derived from<br />

disciplines such as applied maths, computer<br />

science and statistics) to understand and<br />

organise the data and information associated<br />

with these molecules, on a large scale.<br />

In short, bioinformatics is a management<br />

information system for molecular biology and<br />

has many practical applications.<br />

Oxford English Dictionary


Definice bioinformatiky<br />

• spojení biologických věd s informatikou<br />

počítačové zpracování, organizace, ukládání a<br />

vizualizalizace biologických dat a jejich<br />

aplikace<br />

iteUlike oblak klíčových slov pro bioinformatics


Přehled témat bioinformatiky<br />

• hledání genů a skládání genomů<br />

• porovnávání sekvencí (alignment)<br />

• analýza a predikce struktury proteinů a NA<br />

• hledání léčiv (drug design a discovery)<br />

• predikce a analýza interakcí mezi proteiny<br />

• predikce genové exprese<br />

• modelování molekulární evoluce<br />

Wikipedia


Organizace biologických informací<br />

• biologické informace<br />

– redundantní a mnohonásobné<br />

• Genetický kód je redundantní<br />

• Organismus má mnoho podobných genů<br />

• Gen může mít více funkcí<br />

• Rozdílné proteinové sekvence mají<br />

stejnou strukturu


Příklad systému - kolo


Kolo<br />

Jak jsou redundantní<br />

Jak jsou flexibilní<br />

Které části jsou<br />

sdílené (šroubky,<br />

matky, podložky,<br />

pružiny, ložiska),<br />

nebo unikátní<br />

(šlapátka, páčky)<br />

Kde se jednotlivé části<br />

nachází<br />

Jakou mají funkci<br />

Dokážeme je vylepšit


Biologická data<br />

Zdroj dat Velikost dat <strong>Bioinformatika</strong><br />

DNA sekvence<br />

Proteinová<br />

sekvence<br />

Makromolekulární<br />

struktura<br />

Genomy<br />

Exprese<br />

(genů, proteinů, …)<br />

195 milionů sekvencí<br />

(300·10 9 nukleotidů)<br />

18 milionů sekvencí<br />

(~300 AA)<br />

70 000 struktur<br />

(~1500 koordinát)<br />

1000 genomů<br />

(~1·10 9 bp)<br />

čipy<br />

(obrazové info:TB/den)<br />

Introny a exony<br />

Predikce produktu genů<br />

Forenzní analýza<br />

Porovnávání sekvencí (párové, 1:n)<br />

Konzervované sekvenční motivy<br />

Predikce sekundární a terciární struktury<br />

3D strukturní alignment<br />

Geometrie molekuly a její interakce<br />

Molekulární simulace (MD, ligand docking)<br />

Charakterizace opakování<br />

Dohledávání struktur ke genům<br />

Fylogenetická analýza<br />

Genomic-scale census<br />

(obsah proteinů, metabolické dráhy)<br />

Identifikace genetických chorob<br />

Mapování expresních dat na sekvenční a<br />

biochemické data<br />

Biol. literatura 20 milionů citací Hledání, digitální knihovny Tvorba znalostních<br />

databází – data mining


<strong>Bioinformatika</strong> - přístup<br />

experimentální<br />

data<br />

(biologové)<br />

strukturovaná<br />

data<br />

(databáze)<br />

hypotézy<br />

počítačový<br />

program<br />

(programátoři)


hrubá data<br />

sekvence<br />

Prostor působení<br />

příprava<br />

alignment<br />

geny<br />

struktura<br />

funkce<br />

hledání genů<br />

předpověď<br />

3D struktury<br />

databáze<br />

organizace<br />

metabolismus<br />

metabolismus<br />

(biologie)<br />

fylogenetická<br />

analýza


Ideální případ


Počítačové zpracování<br />

• Databáze<br />

– ukládání, hledání<br />

• Analýza textu<br />

– sekvenční analýzy, porovnávání sekvencí, hledání<br />

klíčových slov<br />

• Hledání motivů<br />

– Neuronové sítě, clusterová analýza, data mining,<br />

Markovovské řetězce<br />

• Geometrie<br />

– 3D grafika, robotika, 2D/3D rozpoznávání obrazu<br />

• Fyzikální simulace<br />

– Mechanika, elektrostatika, numerické algoritmy,<br />

simulace


Přehled témat bioinformatiky<br />

• hledání genů a skládání genomů<br />

• porovnávání sekvencí (alignment)<br />

• analýza a predikce struktury proteinů a NA<br />

• hledání léčiv (drug design a discovery)<br />

• predikce a analýza interakcí mezi proteiny<br />

• predikce genové exprese<br />

• modelování molekulární evoluce<br />

Wikipedia


Genom<br />

• Hledání genů<br />

– introny, exony, promotory, cizí kusy DNA<br />

• Charakteristika opakujících se kusů DNA<br />

– forenzní analýza<br />

• Hledání duplicit v genomu


Velikosti genomů<br />

Mycoplasma genitalium<br />

Escherichia coli<br />

Saccharomyces cerevisiae 16 chr.<br />

0.58 Mbp<br />

4.6 Mbp<br />

11.2 Mbp<br />

Caenorhabtitis elegans 6 chr. 97.0 Mbp<br />

Arabidopsis thaliana 5 chr. 115.4 Mbp<br />

Drosophila melanogaster<br />

5 chr. ~137.0 Mbp<br />

Homo sapiens 24 chr. ~ 3.3 Gbp


Analýza sekvencí<br />

• Porovnávání sekvencí<br />

– 1:1<br />

– 1:n<br />

• lokální nebo globální porovnání<br />

• hledání konsensní sekvence pro třídu proteinů<br />

• mapování evoluce<br />

• Hledání vlastností<br />

– sekundární struktura<br />

– hydrofobicita<br />

– transmembránové segmenty


Predikce proteinové struktury<br />

• Terciární struktura<br />

– rozpoznání foldu<br />

– homologní modelování<br />

• strukturní alignment<br />

– ab initio modelování<br />

• Predikce funkce<br />

– hledání aktivních míst a kanálů


Strukturní výpočetní biologie<br />

• Molekulární grafika<br />

– vodítko pro hypotézy<br />

• Simulace<br />

– Struktura => Energie<br />

– vývoj v čase<br />

• Docking – hledání jak a kam se látky váží<br />

– ligandy<br />

– proteiny mezi sebou<br />

Helikáza rozevírající DNA<br />

docking do acetyltransferázy<br />

v programu GOLD


Analýza obrazu s vysokou propustností<br />

• Analýza genové exprese<br />

• Analýza proteinové exprese<br />

• Funkční a toxikologické analýzy


Modelování biologických systémů<br />

• matematická biologie<br />

• e-cell


Sledování molekulární evoluce<br />

• Fylogenetické stromy<br />

– hledání<br />

společného předka<br />

podle podobnosti<br />

- změna probíhá v<br />

liniích časem<br />

- dělení po dvojicích


Souhrn

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!