Quantitative Analyse von Protein-Massenspektren
Quantitative Analyse von Protein-Massenspektren Quantitative Analyse von Protein-Massenspektren
58 ⎛ df1 ⎜ ⎜ dx1 J ( x) = ⎜ ... ⎜ df m ⎜ dx ⎝ 1 ... ... ... df1 ⎞ ⎟ dxn ⎟ ... ⎟ dfm ⎟ dx ⎟ n ⎠ Setzt man Gl. (3.6.1.4) in die Definition von (3.6.1.2) ein, so erhält man: 1 T F( x + h) ≅ L( h) ≡ l( h) l( h) 2 1 T T T 1 T T = f(x) f(x) + h J ( x) f(x) + h J ( x) J ( x) h 2 2 T T 1 T T = F( x) + h J ( x) f(x) + h J ( x) J ( x) h 2 (3.6.1.5) (3.6.1.6) Es ist derjenige Parameterschritt h gesucht, welcher L(h) minimiert: = argmin { L( h)} . Um h zu finden, werden zunächst der Gradient und die Hesse-Matrix bestimmt: ' g( x) = L ( h) = J ( x) '' H ( x) = L ( h) = J ( x) T f ( x) + J ( x) T J ( x) T J ( x) h h h (3.6.1.7) Man sieht, dass L ’’ (h) unabhängig von h ist. L ’’ (h) ist symmetrisch und wenn die Jacobi- Matrix J vollen Rang hat, d.h. die Spalten von J sind linear unabhängig, dann ist F ’’ (h) positiv definit. Der Schritt h, welcher die Kostenfunktion minimiert, kann gefunden werden, indem T T L ' ( h) = 0 ⇒ J ( x) J ( x) h = −J ( x) f gelöst wird. Der LM-Algorithmus löst eine leichte opt T T Variation davon, nämlich: ( J ( x) J ( x) + µ I ) h = −J ( x) f . Der zusätzliche Parameter µ wird opt als „Dämpfungsfaktor“ verwendet. Ist µ>0, so ist die Koeffizienten-Matrix positiv definit und somit zeigt hopt in eine absteigende Richtung. Für große Werte von µ wird ein kleiner Schritt durchgeführt. Kleine µ Werte hingegen kommen am Ende der Optimierung zum Tragen, wenn der gesuchte Parametervektor nahe am Optimum ist. Der Dämpfungsparameter wird bei jedem Iterationsschritt angepasst, damit sichergestellt ist, dass die Kostenfunktion minimiert wird. Ein weiterer Vorteil der Einführung dieses Parameters ist, dass Situationen in denen J(x) T J(x) singulär wird, abgefangen werden. Sobald hopt bestimmt ist, wird der neue Parame- tervektor x gesetzt: x : = x + αhopt . Der Algorithmus ist in Abb. 3.6.1.1 zusammengefasst.
Beim Least-Squares-Fitting wird die Summe der Quadrate der Residuen minimiert. Dieser Mechanismus funktioniert nicht bzw. nur unzureichend, wenn starke Ausreißer vorhanden sind. Das Quadrat der Residuen führt in dem Bereich des Ausreißers dazu, dass die gefittete Kurve sich weit vom Optimum entfernt. Ein anderer Problemfall ist gegeben, wenn die y- Daten sich über mehrere Größenordnungen erstrecken. Hier kann das Quadrat der Residuen der größten y-Daten die Residuen der kleineren y-Daten überragen mit dem Ergebnis, dass die kleinen Werte nur schlecht oder gar nicht gefittet werden. Diese Punkte werden in den Kapiteln 3.6.3. und 3.6.4. behandelt. Zunächst wird die Implementierung aus [NR] für den unbeschränkten LM-Algorithmus benutzt. Dieser erweist sich jedoch als nicht robust genug. Beim Testen mit synthetischen Daten kam es fast immer zur Bildung einer Singulärmatrix (bei der Gauss-Jordan-Elimination), wenn die Startparameter ungünstig gewählt sind, d.h. die Fitting-Methode brach ab. Ein weiteres Problem ist, dass die Implementierung nur sehr spartanisch ist, d.h. viele Entwicklungen, welche seit der Veröffentlichung des urspr. Algorithmus 1963 bekannt sind, sind nicht in den Code eingegangen. Somit eignet sich diese Variante nicht, um das hiesige Problem zu lösen. Stattdessen wird auf den von Manolis Lourakis implementierten LM-Algorithmus gesetzt. Dieser bietet neben der Beseitigung vorhin genannter Mängel auch die wichtige Option an, Randbedingungen für die Parameter bzw. die Gleichungen zu setzen. Eine sehr wichtige Eigenschaft im Hinblick auf die Optimierung des Fittings. 3.6.2. Güteparameter Abb. 3.6.1.1: Skizze des LM-Algorithmus. Er stoppt, wenn eine der folgenden Bedingungen erfüllt ist: • die maximale Zahl kmax an Iterationen ist erreicht, • die Ordnung von g ist kleiner ε1, • die Änderung von hlm ist kleiner ε2. Als Werte werden für ε 10 -15 gesetzt und für kmax 3000. Um die Güte eines Fittings zu bestimmen und somit verschiedene Fittings miteinander zu vergleichen, bedarf es eines Maßes. Ein gebräuchliches Maß ist das Bestimmtheitsmaß: 59
- Seite 8 und 9: Inhalt Seite Liste der Abkürzungen
- Seite 11: Liste der Abkürzungen Ara L-Arabin
- Seite 14 und 15: somit viele Kombinationen, die auf
- Seite 17 und 18: 2. Ausgangssituation Antikörper si
- Seite 19 und 20: Die Frequenz, mit der sich bestimmt
- Seite 21 und 22: Die Immunglobuline lassen sich in f
- Seite 23 und 24: welche meistens über keine Glykosy
- Seite 25 und 26: Analog lässt sich auf diese Weise
- Seite 27 und 28: m R = (2.3.2) ∆m Dabei ist m die
- Seite 29 und 30: Die Hüllkurve repräsentiert die L
- Seite 31 und 32: werden, welche Massen im Spektrum v
- Seite 33: Peak-Überlappungen und für die Be
- Seite 36 und 37: Ein starkes Rauschen hat man z.B. d
- Seite 38 und 39: Nach optionaler Bestimmung der Hül
- Seite 40 und 41: 40 ∂ 0 = ∂a = 2 ⇒ ⇒ R ∑
- Seite 42 und 43: 3.3. Basislinie Die Basislinie enth
- Seite 44 und 45: Liste werden durch eine kubische Sp
- Seite 46 und 47: Dieser Mechanismus funktioniert nur
- Seite 48 und 49: tionen zu berechnen, multipliziert
- Seite 50 und 51: Der Algorithmus für die Berechnung
- Seite 52 und 53: 3.5. Simulation der Peakverbreiteru
- Seite 54 und 55: die Peakbreite nicht konstant ist.
- Seite 56 und 57: Um die Parameter der Basisfunktione
- Seite 60 und 61: 60 2 R =1 − SSE SSM (3.6.2.1) SSE
- Seite 62 und 63: Um diese Probleme zu umgehen, werde
- Seite 64 und 65: Möglichkeit a) konnte nach einem B
- Seite 66 und 67: Ionisierungen beschränkt. Dies kan
- Seite 68 und 69: DLL ist die Methode DLLEXPORT int M
- Seite 70 und 71: statten gehen und zweitens nicht in
- Seite 72 und 73: ten Hüllkurve gezogen. Basierend a
- Seite 74 und 75: um vertreten sind, muss man Abstric
- Seite 76 und 77: Die Auswertung der Spektren findet
- Seite 78 und 79: Bei der manuellen Quantifizierung g
- Seite 80 und 81: Ein ähnliches Bild bietet sich, we
- Seite 82 und 83: Die Daten aus Anhang A sind in Tabe
- Seite 84 und 85: Ebenso wie bei der Simulation präs
- Seite 86 und 87: Im Hinblick auf die technische Umse
- Seite 88 und 89: 88 Molekül Massen Referenz Manuell
- Seite 90 und 91: 90 Basislinie: Tal zu Tal Basislini
- Seite 92 und 93: B. Quantifizierungsergebnisse empir
- Seite 94 und 95: Molekül Massen Basislinie: nicht a
- Seite 96 und 97: Molekül Massen Basislinie: nicht a
- Seite 98 und 99: Auf die Abbildung der dritten Seite
- Seite 100 und 101: 100
- Seite 102 und 103: Haver05 Prof. Tom O’Haver, Introd
58<br />
⎛ df1<br />
⎜<br />
⎜ dx1<br />
J ( x)<br />
= ⎜ ...<br />
⎜ df m<br />
⎜<br />
dx<br />
⎝ 1<br />
...<br />
...<br />
...<br />
df1<br />
⎞<br />
⎟<br />
dxn<br />
⎟<br />
... ⎟<br />
dfm<br />
⎟<br />
dx<br />
⎟<br />
n ⎠<br />
Setzt man Gl. (3.6.1.4) in die Definition <strong>von</strong> (3.6.1.2) ein, so erhält man:<br />
1 T<br />
F(<br />
x + h)<br />
≅ L(<br />
h)<br />
≡ l(<br />
h)<br />
l(<br />
h)<br />
2<br />
1 T<br />
T T 1 T T<br />
= f(x) f(x) + h J ( x)<br />
f(x) + h J ( x)<br />
J ( x)<br />
h<br />
2<br />
2<br />
T T 1 T T<br />
= F(<br />
x)<br />
+ h J ( x)<br />
f(x) + h J ( x)<br />
J ( x)<br />
h<br />
2<br />
(3.6.1.5)<br />
(3.6.1.6)<br />
Es ist derjenige Parameterschritt h gesucht, welcher L(h) minimiert: = argmin { L(<br />
h)}<br />
. Um<br />
h zu finden, werden zunächst der Gradient und die Hesse-Matrix bestimmt:<br />
'<br />
g(<br />
x)<br />
= L ( h)<br />
= J ( x)<br />
''<br />
H ( x)<br />
= L ( h)<br />
= J ( x)<br />
T<br />
f ( x)<br />
+ J ( x)<br />
T<br />
J ( x)<br />
T<br />
J ( x)<br />
h<br />
h h<br />
(3.6.1.7)<br />
Man sieht, dass L ’’ (h) unabhängig <strong>von</strong> h ist. L ’’ (h) ist symmetrisch und wenn die Jacobi-<br />
Matrix J vollen Rang hat, d.h. die Spalten <strong>von</strong> J sind linear unabhängig, dann ist F ’’ (h) positiv<br />
definit. Der Schritt h, welcher die Kostenfunktion minimiert, kann gefunden werden, indem<br />
T<br />
T<br />
L ' ( h)<br />
= 0 ⇒ J ( x)<br />
J ( x)<br />
h = −J<br />
( x)<br />
f gelöst wird. Der LM-Algorithmus löst eine leichte<br />
opt<br />
T<br />
T<br />
Variation da<strong>von</strong>, nämlich: ( J ( x)<br />
J ( x)<br />
+ µ I ) h = −J<br />
( x)<br />
f . Der zusätzliche Parameter µ wird<br />
opt<br />
als „Dämpfungsfaktor“ verwendet. Ist µ>0, so ist die Koeffizienten-Matrix positiv definit und<br />
somit zeigt hopt in eine absteigende Richtung. Für große Werte <strong>von</strong> µ wird ein kleiner Schritt<br />
durchgeführt. Kleine µ Werte hingegen kommen am Ende der Optimierung zum Tragen, wenn<br />
der gesuchte Parametervektor nahe am Optimum ist. Der Dämpfungsparameter wird bei jedem<br />
Iterationsschritt angepasst, damit sichergestellt ist, dass die Kostenfunktion minimiert<br />
wird. Ein weiterer Vorteil der Einführung dieses Parameters ist, dass Situationen in denen<br />
J(x) T J(x) singulär wird, abgefangen werden. Sobald hopt bestimmt ist, wird der neue Parame-<br />
tervektor x gesetzt: x : = x + αhopt<br />
. Der Algorithmus ist in Abb. 3.6.1.1 zusammengefasst.