Bioinformatika KFC/BIN I. PÅehled - Univerzita Palackého v Olomouci
Bioinformatika KFC/BIN I. PÅehled - Univerzita Palackého v Olomouci
Bioinformatika KFC/BIN I. PÅehled - Univerzita Palackého v Olomouci
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Bioinformatika</strong><br />
a<br />
výpočetní biologie<br />
<strong>KFC</strong>/<strong>BIN</strong><br />
I. Přehled<br />
RNDr. Karel Berka, Ph.D.<br />
<strong>Univerzita</strong> Palackého v <strong>Olomouci</strong>
Definice bioinformatiky<br />
(Molecular) bio – informatics: bioinformatics is<br />
conceptualising biology in terms of molecules<br />
(in the sense of physical chemistry) and applying<br />
"informatics techniques" (derived from<br />
disciplines such as applied maths, computer<br />
science and statistics) to understand and<br />
organise the data and information associated<br />
with these molecules, on a large scale.<br />
In short, bioinformatics is a management<br />
information system for molecular biology and<br />
has many practical applications.<br />
Oxford English Dictionary
Definice bioinformatiky<br />
• spojení biologických věd s informatikou<br />
počítačové zpracování, organizace, ukládání a<br />
vizualizalizace biologických dat a jejich<br />
aplikace<br />
iteUlike oblak klíčových slov pro bioinformatics
Přehled témat bioinformatiky<br />
• hledání genů a skládání genomů<br />
• porovnávání sekvencí (alignment)<br />
• analýza a predikce struktury proteinů a NA<br />
• hledání léčiv (drug design a discovery)<br />
• predikce a analýza interakcí mezi proteiny<br />
• predikce genové exprese<br />
• modelování molekulární evoluce<br />
Wikipedia
Organizace biologických informací<br />
• biologické informace<br />
– redundantní a mnohonásobné<br />
• Genetický kód je redundantní<br />
• Organismus má mnoho podobných genů<br />
• Gen může mít více funkcí<br />
• Rozdílné proteinové sekvence mají<br />
stejnou strukturu
Příklad systému - kolo
Kolo<br />
Jak jsou redundantní<br />
Jak jsou flexibilní<br />
Které části jsou<br />
sdílené (šroubky,<br />
matky, podložky,<br />
pružiny, ložiska),<br />
nebo unikátní<br />
(šlapátka, páčky)<br />
Kde se jednotlivé části<br />
nachází<br />
Jakou mají funkci<br />
Dokážeme je vylepšit
Biologická data<br />
Zdroj dat Velikost dat <strong>Bioinformatika</strong><br />
DNA sekvence<br />
Proteinová<br />
sekvence<br />
Makromolekulární<br />
struktura<br />
Genomy<br />
Exprese<br />
(genů, proteinů, …)<br />
195 milionů sekvencí<br />
(300·10 9 nukleotidů)<br />
18 milionů sekvencí<br />
(~300 AA)<br />
70 000 struktur<br />
(~1500 koordinát)<br />
1000 genomů<br />
(~1·10 9 bp)<br />
čipy<br />
(obrazové info:TB/den)<br />
Introny a exony<br />
Predikce produktu genů<br />
Forenzní analýza<br />
Porovnávání sekvencí (párové, 1:n)<br />
Konzervované sekvenční motivy<br />
Predikce sekundární a terciární struktury<br />
3D strukturní alignment<br />
Geometrie molekuly a její interakce<br />
Molekulární simulace (MD, ligand docking)<br />
Charakterizace opakování<br />
Dohledávání struktur ke genům<br />
Fylogenetická analýza<br />
Genomic-scale census<br />
(obsah proteinů, metabolické dráhy)<br />
Identifikace genetických chorob<br />
Mapování expresních dat na sekvenční a<br />
biochemické data<br />
Biol. literatura 20 milionů citací Hledání, digitální knihovny Tvorba znalostních<br />
databází – data mining
<strong>Bioinformatika</strong> - přístup<br />
experimentální<br />
data<br />
(biologové)<br />
strukturovaná<br />
data<br />
(databáze)<br />
hypotézy<br />
počítačový<br />
program<br />
(programátoři)
hrubá data<br />
sekvence<br />
Prostor působení<br />
příprava<br />
alignment<br />
geny<br />
struktura<br />
funkce<br />
hledání genů<br />
předpověď<br />
3D struktury<br />
databáze<br />
organizace<br />
metabolismus<br />
metabolismus<br />
(biologie)<br />
fylogenetická<br />
analýza
Ideální případ
Počítačové zpracování<br />
• Databáze<br />
– ukládání, hledání<br />
• Analýza textu<br />
– sekvenční analýzy, porovnávání sekvencí, hledání<br />
klíčových slov<br />
• Hledání motivů<br />
– Neuronové sítě, clusterová analýza, data mining,<br />
Markovovské řetězce<br />
• Geometrie<br />
– 3D grafika, robotika, 2D/3D rozpoznávání obrazu<br />
• Fyzikální simulace<br />
– Mechanika, elektrostatika, numerické algoritmy,<br />
simulace
Přehled témat bioinformatiky<br />
• hledání genů a skládání genomů<br />
• porovnávání sekvencí (alignment)<br />
• analýza a predikce struktury proteinů a NA<br />
• hledání léčiv (drug design a discovery)<br />
• predikce a analýza interakcí mezi proteiny<br />
• predikce genové exprese<br />
• modelování molekulární evoluce<br />
Wikipedia
Genom<br />
• Hledání genů<br />
– introny, exony, promotory, cizí kusy DNA<br />
• Charakteristika opakujících se kusů DNA<br />
– forenzní analýza<br />
• Hledání duplicit v genomu
Velikosti genomů<br />
Mycoplasma genitalium<br />
Escherichia coli<br />
Saccharomyces cerevisiae 16 chr.<br />
0.58 Mbp<br />
4.6 Mbp<br />
11.2 Mbp<br />
Caenorhabtitis elegans 6 chr. 97.0 Mbp<br />
Arabidopsis thaliana 5 chr. 115.4 Mbp<br />
Drosophila melanogaster<br />
5 chr. ~137.0 Mbp<br />
Homo sapiens 24 chr. ~ 3.3 Gbp
Analýza sekvencí<br />
• Porovnávání sekvencí<br />
– 1:1<br />
– 1:n<br />
• lokální nebo globální porovnání<br />
• hledání konsensní sekvence pro třídu proteinů<br />
• mapování evoluce<br />
• Hledání vlastností<br />
– sekundární struktura<br />
– hydrofobicita<br />
– transmembránové segmenty
Predikce proteinové struktury<br />
• Terciární struktura<br />
– rozpoznání foldu<br />
– homologní modelování<br />
• strukturní alignment<br />
– ab initio modelování<br />
• Predikce funkce<br />
– hledání aktivních míst a kanálů
Strukturní výpočetní biologie<br />
• Molekulární grafika<br />
– vodítko pro hypotézy<br />
• Simulace<br />
– Struktura => Energie<br />
– vývoj v čase<br />
• Docking – hledání jak a kam se látky váží<br />
– ligandy<br />
– proteiny mezi sebou<br />
Helikáza rozevírající DNA<br />
docking do acetyltransferázy<br />
v programu GOLD
Analýza obrazu s vysokou propustností<br />
• Analýza genové exprese<br />
• Analýza proteinové exprese<br />
• Funkční a toxikologické analýzy
Modelování biologických systémů<br />
• matematická biologie<br />
• e-cell
Sledování molekulární evoluce<br />
• Fylogenetické stromy<br />
– hledání<br />
společného předka<br />
podle podobnosti<br />
- změna probíhá v<br />
liniích časem<br />
- dělení po dvojicích
Souhrn