Bioinformatik für Biochemiker - Applied Bioinformatics Group ...

Bioinformatik für Biochemiker - Applied Bioinformatics Group ... Bioinformatik für Biochemiker - Applied Bioinformatics Group ...

von abi.inf.uni.tuebingen.de Mehr von diesem Publisher

27.06.2013 Aufrufe

Bioinformatik für Biochemiker Oliver Kohlbacher WS 2009/2010 15. Zusammenfassung Abt. Simulation biologischer Systeme WSI/ZBIT, Eberhard Karls Universität Tübingen Bioinformatik – Definition Bioinformatik verwendet Methoden der Mathematik, Statistik und Informatik zur Analyse und Interpretation von biologischen, biochemischen und biophysikalischen Daten. Bioinformatik Mathematik, Informatik Lebens- wissenschaften Bioinformatik Physik, Chemie 1

Bioinformatik

für Biochemiker

Oliver Kohlbacher

WS 2009/2010

15. Zusammenfassung

Abt. Simulation biologischer Systeme

WSI/ZBIT, Eberhard Karls Universität Tübingen

Bioinformatik – Definition

Bioinformatik verwendet Methoden der

Mathematik, Statistik und Informatik

zur Analyse und Interpretation von

biologischen, biochemischen und

biophysikalischen Daten.

Bioinformatik

Mathematik,

Informatik

Lebens-

wissenschaften

Bioinformatik

Physik,

Chemie

Bioinformatik – Gebiete

• Sequenzbasierte Bioinformatik

– Assemblierung

– Sequenzsuche/-vergleich

– Comparative Genomics

– ....

• Strukturelle Bioinformatik

– Proteinstrukturvorhersage

– Wirkstoffentwurf () Chemoinformatik)

– ...

• Biologische Informationssyteme

– Datenintegration und biologische Datenbanksysteme

– Modellierung biologischer Daten

– …

• Systembiologie

– Computational Proteomics

– Computational Metabolomics

– Biologische Netzwerke

– …

• ...

Algorithmen

• Bevor man ein Programm schreibt, muss man wissen

was der Rechner tun soll!

• Die Beschreibung einer Methode zur Lösung der

gegebenen Aufgabenstellung nennt man Algorithmus

• Dementsprechend sind Kochrezepte oder

Bedienungsanleitungen nichts anderes als

Algorithmen

• Ein Programm ist eine formale Umsetzung eines

Algorithmus in einer Programmiersprache

• Da Rechner nur Maschinencode ausführen können,

sind Compiler oder Interpreter notwendig, die das

Programm aus der Programmiersprache in

Maschinencode umsetzen, der dann ausgeführt wird

Algorithmen, Code, Rechner

Programm-

code

Algo-

rithmus

Compiler/

Interpreter

Maschinen-

code

Eingabe-

daten

Ausgabe-

daten

Betriebssystem, Shell und GUI

• Jedes Programm (Applikation,

“Befehl”) braucht eine

Schnittstelle zum Rechner

• Unterste Schnittstelle:

Betriebssystem

• Betriebssystem stellt

Applikationen (Programmen,

“Befehlen”) Grundfunktionalität

zur Verfügung

– Verwaltung von Dateien

– Zugriff auf Benutzerdaten

Python – Schleifen

Programm

Betriebs-

system

Rechner

(Hardware)

• Python kennt For-Schleifen, bei denen eine Schleifenvariable eine

Folge von Werten durchläuft und für jeden dieser Werte der

Rumpf ausgeführt wird

• Der Kopf definiert dabei die Schleifenvariable und die möglichen

Werte

• Der Rumpf wird vom Kopf durch Einrückung unterschieden

• Der Rumpf kann eine oder mehrere Zeilen Code enthalten

• Die Funktion range(Wert) erzeugt dabei eine Liste von Wert

Zahlen, die bei 0 anfangen und jeweils um eins erhöht werden

for i in range(10):

print i

• Dieses kurze Programm gibt dementsprechend die Zahlen von 0

bis 9 aus

Laufzeitanalyse

for i in range(n):

for j in range(n):

for k in range(n):

a = a + …

for i in range(n):

a = a + …

for i in range(5*n):

a = a + …

for i in range(10*n):

a = a + …

• Möchte man die Laufzeit zweier Programme analysieren, so „zählt“

man üblicherweise die Rechenoperationen die auszuführen sind.

• Interessant ist dabei der Vergleich, wie die Zahl mit der Größe der

Eingabe (z.B. Sequenzlänge n variiert)

• In den obigen Beispielen können wir zum Beispiel die Anzahl der

Additionen („a = a + …“) betrachten.

Beispiel: n = 3 n = 20

Links: 3 * 3 * 3 = 27 Additionen 20 * 20 * 20 = 8000

Rechts: 3 + 15 + 30 = 48 Additionen 20 + 100 + 200 = 320

O-Notation

• Die O-Notation sagt nichts darüber aus, ob eine bestimmte

Problemgröße mit einem Algorithmus lösbar ist!

• Statt dessen trifft sie eine Aussage darüber, wie der Algorithmus

beim Übergang zu immer größeren Probleminstanzen skaliert

• Algorithmen mit besserer Komplexität können (und sind es auch

oft) für sehr kleine Probleminstanzen langsamer sein

Strings und Sequenzen

• Formale Definitionen

• Sequenzdatenbanken

• Einige Grundbegriffe

der Informatik

• Alignments

– Definition

– Distanzfunktionen

– Dotplots

Strings und Sequenzen

Definition:

Ein Alphabet Σ ist eine endliche Menge von Zeichen.

Sequenzen sind Zeichenreihen über Σ.

Dabei ist:

Σ 0 := {ε} (ε steht für die leere Sequenz)

Σ n ist die Menge aller Worte der Länge n auf Σ

Σn+1 := {aA | a 2 Σ, A 2 Σ n }

Σ * ist die Menge aller Sequenzen (aller Längen) über Σ.

Beispiel:

DNA-Sequenzen sind definiert über dem Alphabet

Σ DNA = {A,C,G,T}

Protein-Sequenzen sind definiert über

Σ P = {A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}

Alignment mit DP

• Alignmentalgorithmen

– Trivial

– Dyn. Programmierung

• Scoringmatrizen

• Begriff der Komplexität

• Implementierung

• Tools

– Alignments

– Dotplots

Ähnlichkeit und Distanz

Merkl, Waack, Bioinformatik interaktiv

• Wie kann man die Ähnlichkeit zweier Sequenzen

beschreiben?

• Einfachste Möglichkeit: „Zählen“ identischer Zeichen

GATCGTTCG

|| |||

CATGGTTGA

• Problem: Was bei Sequenzen unterschiedlicher Länge?

GATCGTTCG GATCGTTCG GATCGTTCG

||| | ||| |

---GGTTGA G---GTT-GA -GGTTGA--

Ähnlichkeit: (Anzahl Matches)

3 5 0

Analog die Distanz (Anzahl Mismatches):

6 5 9

Alignments

• Beispiel: Berechnen des Scores zweier Alignments von

A = ACGTAGTAGCA und B = ACTTAGTACGT

ACGTAGTAGC-A ACGTAGTA-GCA

|| | ||| | | || | || | |

ACTT-GTACGTA ACTTG-TACGTA

Beobachtung:

Die Alignments der Präfixe der Länge vier von A und B

sind identisch. Damit auch die Scores der Alignments

dieser Präfixe.

) Wir berechnen die Scores vieler Teilalignments

immer wieder!

Idee:

Merke die besten Scores dieser Teilalignments und

berechne sie nicht ständig neu.

Dynamische Programmierung

• Die 0. Spalte/Zeile der

Matrix beschreibt

Alignments die mit einem

Gapzeichen beginnen

• Gemäß unserer Überlegung

über Präfixalignments gilt

für die Matrixelemente:

• Damit ergibt sich der Inhalt

einer Zelle der Matrix aus

den Werten der drei

Nachbarzellen links, oben

und links oben

Beispiel:

• A = ACGT, m = 4

• B = AGC, n = 3

-

A

C

G

T

- A G C

D 0,0

Dynamische Programmierung

• Traceback der T-Matrix

– Diagonal: Matche zwei

Zeichen

– Horizontal: matche Zeichen

aus B mit Gap

– Vertikal: matche Zeichen aus

A mit Gap

• Beispiel:

Diagonal von (1,1) nach (0,0)

ACGT

A-GC

Datenbanken - Definition

Beispiel:

• A = ACGT, m = 4

• B = AGC, n = 3

D m,n

- A G C

- 0 1 2 3

A 1 0 1 2

C 2 1 1 1

G 3 2 1 2

T 4 3 2 2

Datenbank (DB):

eine Datensammlung, die nach

bestimmten Kriterien organisiert ist.

ENTREZ

BLAST – w-mere

• Für jede Anfrage S konstruiert BLAST zunächst eine Liste aller in

S vorkommenden w-mere, dann eine Liste aller dazu ähnlichen

w-mere (gemäß Scoringmatrix)

• Nach diesen w-meren wird dann in D gesucht

• Da keine Gaps zugelassen werden und nur direkte Identität mit

sehr kurzen Sequenzen getestet werden muss, geht dies sehr

schnell

S

BLAST-Ausgabe

BLASTP 2.2.8 [Jan-05-2004]

w-mere aus S Ähnliche k-mere

Treffer in D

Datenbanksequenz D

Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro

A. Schaffer,

Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman

(1997),

"Gapped BLAST and PSI-BLAST: a new generation of protein

database search

programs", Nucleic Acids Res. 25:3389-3402.

Query= 1HSO:B CLASS I ALCOHOL DEHYDROGENASE 1, ALPHA SUBUNIT

(374 letters)

Database: Arabidopsis_chr1.fasta

7493 sequences; 3,192,001 total letters

Searching...............done

Problemdefinition

Multiples Sequenzalignment

(MSA, multiple sequence alignment, Profil)

• Gegeben: k Sequenzen

• Gesucht:

– Alignment aller k Sequenzen

– Möglichst optimal bezüglich einer Distanz- oder Scoringfunktion

WIN1_SOLTU AQQCGRQKGGALCSGNLCCSQFGWCGSTPEFCSPSQGCQSRC

HEVE_HEVBR AEQCGRQAGGKLCPNNLCCSQWGWCGSTDEYCSPDHNCQSNC

CHIX_PEA AEQCGSQAGGAVCPNGLCCSKFGFCGSTDPYCGD..GCQSQC

CHI2_ORYSA AEQCGSQAGGAVCPNCLCCSQFGWCGSTSDYCGA..GCQSQC

CHI1_ORYSA GEQCGSQAGGALCPNCLCCSQYGWCGSTSDYCGA..GCQSQC

AGI_URTDI AQRCGSQGGGGTCPALWCCSIWGWCGDSEPYCGR..TCENKC

Anwendung – Strukturkonservierung

WIN1_SOLTU AQQCGRQKGGALCSG.NLCCSQFGWCGSTPEFCSPSQGCQ.SRC

HEVE_HEVBR AEQCGRQAGGKLCPN.NLCCSQWGWCGSTDEYCSPDHNCQ.SNC

CHIX_PEA AEQCGSQAGGAVCPN.GLCCSKFGFCGSTDPYCGD..GCQ.SQC

CHI2_ORYSA AEQCGSQAGGAVCPN.CLCCSQFGWCGSTSDYCGA..GCQ.SQC

CHI1_TOBAC AEQCGSQAGGARCPS.GLCCSKFGWCGNTNDYCGPG.NCQ.SQC

HEVL_ARATH GQQCGRQGGGRTCPG.NICCSQYGYCGTTADYCSPTNNCQ.SNC

CHIT_DIOJA .QNCQ.......CDTTIYCCSQHGYCGNSYDYCGP..GCQAGPC

CHIP_BETVU AQNCG.......CAP.NLCCSNFGFCGTGTPYCGVG.NCQSGPC

CHIA_MAIZE AQNCG.......CQP.NFCCSKFGYCGTTDAYCGD..GCQSGPC

AGI1_WHEAT AQRCGEQGSNMECPN.NLCCSQYGYCGMGGDYCGK..GCQNGAC

AGI_ORYSA AQTCGKQNDGMICPH.NLCCSQFGYCGLGRDYCGT..GCQSGAC

AGI_URTDI AQRCGSQGGGGTCPA.LWCCSIWGWCGDSEPYCGR..TCE.NKC

„One or two homologous sequences whisper …

a full multiple sequence alignment shouts out

loud.“ (Arthur Lesk, 1996)

CLUSTALW – Überblick

S 1

S 2

-

.

D 1,2

-

D 1,3 D 2,3 -

D 1,2

D 1,3

D 1,4 D 2,4 D 3,4 -

S 1

S 2

S 3

S 4

• Globales Alignment

• Distanzmatrix

• Konstruktion eines Leitbaums

• Profilalignment entlang des

Baums

Sequenzlogos

• Profile lassen sich auf einfache Weise mit Hilfe sogenannter

Sequenzlogos visualisieren

• Dabei zeichnet man an jeder Position der Sequenz die

möglichen Buchstaben, wobei die Buchstabenhöhe

proportional zum Informationsgehalt ist

• Dadurch lassen sich die motivrelevanten Teile des Profils direkt

ablesen

• Beispiel:

TATA-Box-

Sequenzen aus

Hefe

Protein-Strukturvorhersage

Problemdefinition:

Gegeben Sequenz, finde Struktur

...LGFCYWS...

Proteinstruktur – Überblick

Primärstruktur

Sekundärstruktur

Tertiärstruktur

Quartärstruktur

http://www.lecb.ncifcrf.gov/~toms/sequencelogo.html

Sequenz: ...LGFCYWS...

PDB – Der erste Eintrag!

PDB-Format

Beispiel: ATOM-Records für VAL

Röntgenstrukturen

ATOM 1 N VAL 1 -2.900 17.600 15.500 enthalten 1.00 0.00 nur Schweratome

2 1MBN 72

ATOM 2 CA VAL 1 -3.600 16.400 15.300 1.00 0.00 2 1MBN 73

ATOM 3 C VAL 1 -3.000 15.300 16.200 Valin 1.00 (VAL) 0.00 enthält 2 1MBN dann 74

ATOM 4 O VAL 1 -3.700 14.700 17.000 1.00 0.00 2 1MBN 75

sieben Atome:

ATOM 5 CB VAL 1 -3.500 16.000 13.800 1.00 0.00 2 1MBN 76

ATOM 6 CG1 VAL 1 -2.100 15.700 13.300 N, 1.00 CA, C, 0.00 O – Rückgrat 2 1MBNP 4

ATOM 7 CG2 VAL 1 -4.600 14.900 13.400 1.00 0.00 2 1MBNL 8

ATOM 8 N LEU 2 -1.700 15.100 16.000 CB, 1.00 CG1, 0.00 CG2 – 1 Seitenkette

1MBN 79

ATOM 9 CA LEU 2 -.900 14.100 16.700 1.00 0.00 1MBN 80

ATOM 10 C LEU 2 -1.000 13.900 18.300 1.00 0.00 1MBN 81

ATOM 11 O LEU 2 -.900 14.900 19.000 1.00 0.00 1MBN 82

ATOM 12 CB LEU 2 .600 14.200 16.500 1.00 0.00 1MBN 83

ATOM 13 CG LEU 2 1.100 14.300 15.100 1.00 0.00 1 1MBN 84

ATOM 14 CD1 LEU 2 .400 15.500 14.400 1.00 0.00 1 1MBNL 9

Record- Nummer + Name +

typ Name des Nummer

Atoms des Rests

BALLView

X Y Z

Koordinaten

Threading

Gesucht

Zuordnung der Zielsequenz zu Positionen in

der Schablonenstruktur

) Sequenz-Struktur-Alignment

CCP vs. CP

Beispiel

Grau: 1IVM

Gelb: 1IVM gethreaded auf 1LZY

...LGFCYWS...

...ILVGCIL...

Lengauer, Zimmer, In: Bioinformatics: From Genomes to Drugs, T. Lengauer (Hrsg.), Wiley, 2002

Blau: 1LZY

Gelb: 1IVM gethreaded auf 1LZY

ROSETTA

• Modell

– Torsionswinkelraum, reduziert auf

Fragmente

– Seitenketten auf C β reduziert

• Potenzialfunktion

– Wahrscheinlichkeitsbasiert (Bayes-Ansatz)

• Algorithmus

– Simulated Annealing:

MMC mit linear sinkender Temperatur

– Feste Anzahl Schritte (10000)

ROSETTA – Ergebnisse CASP5

Loop-Datenbanken

• Clustering liefert

große Zahl sehr

ähnlicher Fragmente

• Cluster werden

üblicherweise auf

einzelne

Repräsentanten

reduziert

• Methoden

– Hierarchisches

Clustering

– Nächste Nachbarn

Fechteler, Dengler, Schomburg, J. Mol. Biol. (1995), 253, 114-131

Rotamere

• Torsionswinkel werden nicht

unabhängig voneinander

angenommen

• Es existieren ausgezeichnete

Winkelbereiche die Konformeren

im Torsionsraum entsprechen

• Da diese Konformere durch

Rotation um Torsionswinkel

entstehen, nennt man sie Rotamere

Rotamere von LYS

• Rotamere:

Seitenkettenkonformationen

minimaler Energie

Was Ihnen vorenthalten wurde…

• Sequenzanalyse

– Assemblierung von Genomen

– Genomvergleich

– RNA-Struktur

– Metagenomik

– …

• Expressionsanalyse

– Transkriptomik (Microarrays)

– Proteomik

– …

• Systembiologie

– Regulatorische Netzwerke

– Interaktomik

– Metabolomik

– …

• Strukturbioinformatik

– Proteinähnlichkeit

– Molecular Modeling

– Wirkstoffentwurf

– Protein-Protein

Interaktionen

– …

• Sonstiges

– Immunoinformatik

– Populationsdynamik

– …

Weiterführende Veranstaltungen

• Vorlesung „Informatik I + II“ (WS/SS)

• Vorlesungen „Drug Design 1“ und „Drug Design 2“ (WS

10/11, SS 11, Englisch)

• Vorlesung „Computational Immunomics“

(SS 10, Englisch)

• Praktikum „Applied Structure-Based Drug

Design“ (Blockprakt., jedes Semester)

• Vorlesung Grundlagen der Bioinformatik (jedes SS)

• Vorlesung Bioinformatik I + II (WS/SS)

• Praktikum Datenintegration (Blockprakt.)

Bioinformatik für Biochemiker - Applied Bioinformatics Group ...

Bioinformatik für Biochemiker - Applied Bioinformatics Group ... ... Mehr anzeigen Bioinformatik für Biochemiker - Applied Bioinformatics Group ...

Template löschen?

Als Template speichern ?

Bioinformatik für Biochemiker - Applied Bioinformatics Group ... Bioinformatik für Biochemiker - Applied Bioinformatics Group ...