Quantitative Analyse von Protein-Massenspektren

22.12.2012 Aufrufe
58 ⎛ df1 ⎜ ⎜ dx1 J ( x) = ⎜ ... ⎜ df m ⎜ dx ⎝ 1 ... ... ... df1 ⎞ ⎟ dxn ⎟ ... ⎟ dfm ⎟ dx ⎟ n ⎠ Setzt man Gl. (3.6.1.4) in die Definition von (3.6.1.2) ein, so erhält man: 1 T F( x + h) ≅ L( h) ≡ l( h) l( h) 2 1 T T T 1 T T = f(x) f(x) + h J ( x) f(x) + h J ( x) J ( x) h 2 2 T T 1 T T = F( x) + h J ( x) f(x) + h J ( x) J ( x) h 2 (3.6.1.5) (3.6.1.6) Es ist derjenige Parameterschritt h gesucht, welcher L(h) minimiert: = argmin { L( h)} . Um h zu finden, werden zunächst der Gradient und die Hesse-Matrix bestimmt: ' g( x) = L ( h) = J ( x) '' H ( x) = L ( h) = J ( x) T f ( x) + J ( x) T J ( x) T J ( x) h h h (3.6.1.7) Man sieht, dass L ’’ (h) unabhängig von h ist. L ’’ (h) ist symmetrisch und wenn die Jacobi- Matrix J vollen Rang hat, d.h. die Spalten von J sind linear unabhängig, dann ist F ’’ (h) positiv definit. Der Schritt h, welcher die Kostenfunktion minimiert, kann gefunden werden, indem T T L ' ( h) = 0 ⇒ J ( x) J ( x) h = −J ( x) f gelöst wird. Der LM-Algorithmus löst eine leichte opt T T Variation davon, nämlich: ( J ( x) J ( x) + µ I ) h = −J ( x) f . Der zusätzliche Parameter µ wird opt als „Dämpfungsfaktor“ verwendet. Ist µ>0, so ist die Koeffizienten-Matrix positiv definit und somit zeigt hopt in eine absteigende Richtung. Für große Werte von µ wird ein kleiner Schritt durchgeführt. Kleine µ Werte hingegen kommen am Ende der Optimierung zum Tragen, wenn der gesuchte Parametervektor nahe am Optimum ist. Der Dämpfungsparameter wird bei jedem Iterationsschritt angepasst, damit sichergestellt ist, dass die Kostenfunktion minimiert wird. Ein weiterer Vorteil der Einführung dieses Parameters ist, dass Situationen in denen J(x) T J(x) singulär wird, abgefangen werden. Sobald hopt bestimmt ist, wird der neue Parame- tervektor x gesetzt: x : = x + αhopt . Der Algorithmus ist in Abb. 3.6.1.1 zusammengefasst.

Beim Least-Squares-Fitting wird die Summe der Quadrate der Residuen minimiert. Dieser Mechanismus funktioniert nicht bzw. nur unzureichend, wenn starke Ausreißer vorhanden sind. Das Quadrat der Residuen führt in dem Bereich des Ausreißers dazu, dass die gefittete Kurve sich weit vom Optimum entfernt. Ein anderer Problemfall ist gegeben, wenn die y- Daten sich über mehrere Größenordnungen erstrecken. Hier kann das Quadrat der Residuen der größten y-Daten die Residuen der kleineren y-Daten überragen mit dem Ergebnis, dass die kleinen Werte nur schlecht oder gar nicht gefittet werden. Diese Punkte werden in den Kapiteln 3.6.3. und 3.6.4. behandelt. Zunächst wird die Implementierung aus [NR] für den unbeschränkten LM-Algorithmus benutzt. Dieser erweist sich jedoch als nicht robust genug. Beim Testen mit synthetischen Daten kam es fast immer zur Bildung einer Singulärmatrix (bei der Gauss-Jordan-Elimination), wenn die Startparameter ungünstig gewählt sind, d.h. die Fitting-Methode brach ab. Ein weiteres Problem ist, dass die Implementierung nur sehr spartanisch ist, d.h. viele Entwicklungen, welche seit der Veröffentlichung des urspr. Algorithmus 1963 bekannt sind, sind nicht in den Code eingegangen. Somit eignet sich diese Variante nicht, um das hiesige Problem zu lösen. Stattdessen wird auf den von Manolis Lourakis implementierten LM-Algorithmus gesetzt. Dieser bietet neben der Beseitigung vorhin genannter Mängel auch die wichtige Option an, Randbedingungen für die Parameter bzw. die Gleichungen zu setzen. Eine sehr wichtige Eigenschaft im Hinblick auf die Optimierung des Fittings. 3.6.2. Güteparameter Abb. 3.6.1.1: Skizze des LM-Algorithmus. Er stoppt, wenn eine der folgenden Bedingungen erfüllt ist: • die maximale Zahl kmax an Iterationen ist erreicht, • die Ordnung von g ist kleiner ε1, • die Änderung von hlm ist kleiner ε2. Als Werte werden für ε 10 -15 gesetzt und für kmax 3000. Um die Güte eines Fittings zu bestimmen und somit verschiedene Fittings miteinander zu vergleichen, bedarf es eines Maßes. Ein gebräuchliches Maß ist das Bestimmtheitsmaß: 59

Seite 1: LUDWIG - MAXIMILIANS - UNIVERSITÄT

Seite 5: Danksagung Ich danke Prof. Dr. Volk

Seite 8 und 9: Inhalt Seite Liste der Abkürzungen

Seite 11: Liste der Abkürzungen Ara L-Arabin

Seite 14 und 15: somit viele Kombinationen, die auf

Seite 17 und 18: 2. Ausgangssituation Antikörper si

Seite 19 und 20: Die Frequenz, mit der sich bestimmt

Seite 21 und 22: Die Immunglobuline lassen sich in f

Seite 23 und 24: welche meistens über keine Glykosy

Seite 25 und 26: Analog lässt sich auf diese Weise

Seite 27 und 28: m R = (2.3.2) ∆m Dabei ist m die

Seite 29 und 30: Die Hüllkurve repräsentiert die L

Seite 31 und 32: werden, welche Massen im Spektrum v

Seite 33: Peak-Überlappungen und für die Be

Seite 36 und 37: Ein starkes Rauschen hat man z.B. d

Seite 38 und 39: Nach optionaler Bestimmung der Hül

Seite 40 und 41: 40 ∂ 0 = ∂a = 2 ⇒ ⇒ R ∑

Seite 42 und 43: 3.3. Basislinie Die Basislinie enth

Seite 44 und 45: Liste werden durch eine kubische Sp

Seite 46 und 47: Dieser Mechanismus funktioniert nur

Seite 48 und 49: tionen zu berechnen, multipliziert

Seite 50 und 51: Der Algorithmus für die Berechnung

Seite 52 und 53: 3.5. Simulation der Peakverbreiteru

Seite 54 und 55: die Peakbreite nicht konstant ist.

Seite 56 und 57: Um die Parameter der Basisfunktione

Seite 60 und 61: 60 2 R =1 − SSE SSM (3.6.2.1) SSE

Seite 62 und 63: Um diese Probleme zu umgehen, werde

Seite 64 und 65: Möglichkeit a) konnte nach einem B

Seite 66 und 67: Ionisierungen beschränkt. Dies kan

Seite 68 und 69: DLL ist die Methode DLLEXPORT int M

Seite 70 und 71: statten gehen und zweitens nicht in

Seite 72 und 73: ten Hüllkurve gezogen. Basierend a

Seite 74 und 75: um vertreten sind, muss man Abstric

Seite 76 und 77: Die Auswertung der Spektren findet

Seite 78 und 79: Bei der manuellen Quantifizierung g

Seite 80 und 81: Ein ähnliches Bild bietet sich, we

Seite 82 und 83: Die Daten aus Anhang A sind in Tabe

Seite 84 und 85: Ebenso wie bei der Simulation präs

Seite 86 und 87: Im Hinblick auf die technische Umse

Seite 88 und 89: 88 Molekül Massen Referenz Manuell

Seite 90 und 91: 90 Basislinie: Tal zu Tal Basislini

Seite 92 und 93: B. Quantifizierungsergebnisse empir

Seite 94 und 95: Molekül Massen Basislinie: nicht a

Seite 96 und 97: Molekül Massen Basislinie: nicht a

Seite 98 und 99: Auf die Abbildung der dritten Seite

Seite 100 und 101: 100

Seite 102 und 103: Haver05 Prof. Tom O’Haver, Introd

spektrum

peaks

massen

quantifizierung

spektren

basislinie

ableitung

masse

fitting

parameter

quantitative

analyse

pms.ifi.lmu.de

Quantitative Analyse von Protein-Massenspektren

Quantitative Analyse von Protein-Massenspektren ... Mehr anzeigen Quantitative Analyse von Protein-Massenspektren

Template löschen?

Als Template speichern ?

Quantitative Analyse von Protein-Massenspektren Quantitative Analyse von Protein-Massenspektren