Quantitative Analyse von Protein-Massenspektren
Quantitative Analyse von Protein-Massenspektren Quantitative Analyse von Protein-Massenspektren
Um die Parameter der Basisfunktionen zu finden, welche der Hüllkurve zugrunde liegen, wird folgendermaßen vorgegangen: Als erstes wird eine Datenliste erstellt, welche alle freien Peaks der untersuchten Spezies enthält. Freie Peaks sind all diejenigen, welche nicht durch Peaks anderer Massen überlagert werden. Um auch extreme Fälle noch gut behandeln zu können, werden auch Peaks herangezogen, welche überlappen, wobei die Überlappung nicht mehr als 5% der Peakintensität einnehmen darf. Beim Fitting sind nichtlineare Transformationen der Daten nicht zulässig, da sie das Ergebnis verfälschen. Folglich kann beim Fitten nicht mit der m/z-Skala gearbeitet werden, weil die Transformation von I(z) nach I(m/z) nicht linear ist, d.h. die m/z-Werte der Datenpunkte müssen auf z-Werte umgerechnet werden. Mit diesen Datenpunkten wird anschließend ein Fitting der Basisfunktionen durchgeführt. Um genauer zu sein: es werden die Parameter gefittet. Im Falle der Gauß-Funktion sind diese Mittelpunkt, Amplitude und FWHM. 3.6.1. Levenberg-Marquardt-Algorithmus Für das Fitting der Basisfunktionen auf die Datenpunkte gibt es eine große Zahl an Algorithmen. Jedoch kommen nicht alle davon in Frage. Es gibt zwei Klassen an Fitting-Algorithmen: lineare und nichtlineare. Die erste Klasse scheidet für das hiesige Problem aus, weil es nicht linear ist. Folglich muss ein Algorithmus der nichtlinearen Fitting Klasse verwendet werden. Zunächst wurde die „Downhill Simplex“-Methode für Multidimensionen, entwickelt von Nelder und Mead, betrachtet. Diese wurde auch von [Dobo01] verwendet, welche mittels Entfaltung der Hüllkurve Konformationsanalysen von Proteinen durchgeführt haben. In einigen Tests mit einfachen Daten erwies sich dieser Algorithmus jedoch als ungeeignet, weil bei fast allen Läufen der Algorithmus gar nicht konvergiert hat. Als Alternative kam der Levenberg-Marquardt-Algorithmus in Frage, welcher als einer der Standard-Algorithmen im Fitting-Bereich gilt. Dieser hat sich bei den ersten Versuchen mit Testdaten als robuster entpuppt. Eine später vorgenommene Untersuchung mit synthetischen Daten zeigt ebenfalls, dass man mit dem LM-Algorithmus gute Ergebnisse erzielt (vgl. Kap. 4). Deshalb fällt die Wahl für eine Fitting-Methode auf den LM-Algorithmus. Im Folgenden wird die prinzipielle Idee des LM-Algorithmus erläutert. Wegen der Komplexität des Verfahrens kann nicht auf alle Details eingegangen werden. Den interessierten Leser verweise ich auf [Madsen04], welcher eine überaus detaillierte Beschreibung des LM-Algorithmus gibt. Beim nichtlinearen Fitting und somit auch beim LM-Algorithmus wird eine Kostenfunktion minimiert, welche folgende Form hat: 56
F 1 2 m ∑ i= 1 ( x) = ( f ( ) ) i x 2 Die zu optimierenden Parameter sind im Vektor x ( x x ,..., x ) 1, 2 n (3.6.1.1) = abgelegt. Bei n f : ℜ a ℜ, i = 1,..., m ∧ m ≥ n handelt es sich um die Residuenfunktion. Sei das Fitting- i Modell M(x,t), dann ist fi(x)=yi-M(x,ti). Um die Darstellung zu vereinfachen, wird der Vektor f(x)=(f1(x),f2(x),…,fm(x)) definiert und man erhält: F m 1 1 1 T = ∑ i 2 i= 1 2 2 2 2 ( x) ( f ( x) ) = f ( x) = f ( x) f ( x) (3.6.1.2) Es wird angenommen, dass die Kostenfunktion 2fach differenzierbar und glatt ist, so dass die folgende Taylor-Approximation anwendbar ist: F T ' 1 T '' 3 ( x h) = F( x) + h F ( x) + h F ( x) h + O( h ) + (3.6.1.3) 2 Damit berechnet man die Kosten, wenn vom aktuellen Parametervektor x um h:=t-x „Schritte“ nach x+h gegangen wird. Die O-Notation am Ende der Gleichung, zeigt wo die Taylor- Reihe abgeschnitten wurde. Hier betrifft dies alle Terme dritter Ordnung oder höher – diese werden ignoriert, da sie nicht signifikant sind. Die erste Ableitung F ’ (x) entspricht dem Gradienten g(x) und die zweite Ableitung F ’’ (x) der Hesse-Matrix H(x). Sei x * ein lokales Minimum, dann gilt: g(x)=F ’ (x * )=0. Dies ist eine notwendige, aber nicht ausreichende Bedingung: Die erste Ableitung ergibt auch für Sattelpunkte Null. Um eine ausreichende Bedingung zu erhalten, muss zusätzlich gelten, dass die zweite Ableitung ungleich Null ist, d.h. H(x)=F ’’ (x * ) ist positiv definit. Falls H(x) negativ definit wäre, hätte man ein lokales Maximum gefunden. Bei der nichtlinearen Optimierung wird iterativ vorgegangen. Mit jedem Schritt von xk nach xk+1 wird F(xk) minimiert, d.h. F(xk)>F(xk+1). Optimalerweise hat man eine Methode, welche abhängig vom aktuellen Gradienten kleine bzw. große Schritte h durchführt. Ist der Gradient klein, sollten große Schritte gemacht werden, ist der Gradient hingegen groß, sind kleine Schritte wünschenswert. Dies soll bewirken, dass man in einem kleinen Tal (schlechtes lokales Minimum) nicht hängen bleibt und zum anderen, dass man ein gutes lokales Minimum nicht übersieht. Wenn h klein ist, kann man f durch eine Taylor-Reihe approximieren: 2 f ( x + h) = f ( x) + J ( x) h + O( h ) ≅ l( h) ≡ f ( x) + J ( x) h (3.6.1.4) J steht für die Jakobi-Matrix: 57
- Seite 5: Danksagung Ich danke Prof. Dr. Volk
- Seite 8 und 9: Inhalt Seite Liste der Abkürzungen
- Seite 11: Liste der Abkürzungen Ara L-Arabin
- Seite 14 und 15: somit viele Kombinationen, die auf
- Seite 17 und 18: 2. Ausgangssituation Antikörper si
- Seite 19 und 20: Die Frequenz, mit der sich bestimmt
- Seite 21 und 22: Die Immunglobuline lassen sich in f
- Seite 23 und 24: welche meistens über keine Glykosy
- Seite 25 und 26: Analog lässt sich auf diese Weise
- Seite 27 und 28: m R = (2.3.2) ∆m Dabei ist m die
- Seite 29 und 30: Die Hüllkurve repräsentiert die L
- Seite 31 und 32: werden, welche Massen im Spektrum v
- Seite 33: Peak-Überlappungen und für die Be
- Seite 36 und 37: Ein starkes Rauschen hat man z.B. d
- Seite 38 und 39: Nach optionaler Bestimmung der Hül
- Seite 40 und 41: 40 ∂ 0 = ∂a = 2 ⇒ ⇒ R ∑
- Seite 42 und 43: 3.3. Basislinie Die Basislinie enth
- Seite 44 und 45: Liste werden durch eine kubische Sp
- Seite 46 und 47: Dieser Mechanismus funktioniert nur
- Seite 48 und 49: tionen zu berechnen, multipliziert
- Seite 50 und 51: Der Algorithmus für die Berechnung
- Seite 52 und 53: 3.5. Simulation der Peakverbreiteru
- Seite 54 und 55: die Peakbreite nicht konstant ist.
- Seite 58 und 59: 58 ⎛ df1 ⎜ ⎜ dx1 J ( x) = ⎜
- Seite 60 und 61: 60 2 R =1 − SSE SSM (3.6.2.1) SSE
- Seite 62 und 63: Um diese Probleme zu umgehen, werde
- Seite 64 und 65: Möglichkeit a) konnte nach einem B
- Seite 66 und 67: Ionisierungen beschränkt. Dies kan
- Seite 68 und 69: DLL ist die Methode DLLEXPORT int M
- Seite 70 und 71: statten gehen und zweitens nicht in
- Seite 72 und 73: ten Hüllkurve gezogen. Basierend a
- Seite 74 und 75: um vertreten sind, muss man Abstric
- Seite 76 und 77: Die Auswertung der Spektren findet
- Seite 78 und 79: Bei der manuellen Quantifizierung g
- Seite 80 und 81: Ein ähnliches Bild bietet sich, we
- Seite 82 und 83: Die Daten aus Anhang A sind in Tabe
- Seite 84 und 85: Ebenso wie bei der Simulation präs
- Seite 86 und 87: Im Hinblick auf die technische Umse
- Seite 88 und 89: 88 Molekül Massen Referenz Manuell
- Seite 90 und 91: 90 Basislinie: Tal zu Tal Basislini
- Seite 92 und 93: B. Quantifizierungsergebnisse empir
- Seite 94 und 95: Molekül Massen Basislinie: nicht a
- Seite 96 und 97: Molekül Massen Basislinie: nicht a
- Seite 98 und 99: Auf die Abbildung der dritten Seite
- Seite 100 und 101: 100
- Seite 102 und 103: Haver05 Prof. Tom O’Haver, Introd
Um die Parameter der Basisfunktionen zu finden, welche der Hüllkurve zugrunde liegen, wird<br />
folgendermaßen vorgegangen: Als erstes wird eine Datenliste erstellt, welche alle freien Peaks<br />
der untersuchten Spezies enthält. Freie Peaks sind all diejenigen, welche nicht durch Peaks<br />
anderer Massen überlagert werden. Um auch extreme Fälle noch gut behandeln zu können,<br />
werden auch Peaks herangezogen, welche überlappen, wobei die Überlappung nicht mehr als<br />
5% der Peakintensität einnehmen darf. Beim Fitting sind nichtlineare Transformationen der<br />
Daten nicht zulässig, da sie das Ergebnis verfälschen. Folglich kann beim Fitten nicht mit der<br />
m/z-Skala gearbeitet werden, weil die Transformation <strong>von</strong> I(z) nach I(m/z) nicht linear ist, d.h.<br />
die m/z-Werte der Datenpunkte müssen auf z-Werte umgerechnet werden. Mit diesen Datenpunkten<br />
wird anschließend ein Fitting der Basisfunktionen durchgeführt. Um genauer zu sein:<br />
es werden die Parameter gefittet. Im Falle der Gauß-Funktion sind diese Mittelpunkt, Amplitude<br />
und FWHM.<br />
3.6.1. Levenberg-Marquardt-Algorithmus<br />
Für das Fitting der Basisfunktionen auf die Datenpunkte gibt es eine große Zahl an Algorithmen.<br />
Jedoch kommen nicht alle da<strong>von</strong> in Frage. Es gibt zwei Klassen an Fitting-Algorithmen:<br />
lineare und nichtlineare. Die erste Klasse scheidet für das hiesige Problem aus, weil es nicht<br />
linear ist. Folglich muss ein Algorithmus der nichtlinearen Fitting Klasse verwendet werden.<br />
Zunächst wurde die „Downhill Simplex“-Methode für Multidimensionen, entwickelt <strong>von</strong><br />
Nelder und Mead, betrachtet. Diese wurde auch <strong>von</strong> [Dobo01] verwendet, welche mittels Entfaltung<br />
der Hüllkurve Konformationsanalysen <strong>von</strong> <strong>Protein</strong>en durchgeführt haben. In einigen<br />
Tests mit einfachen Daten erwies sich dieser Algorithmus jedoch als ungeeignet, weil bei fast<br />
allen Läufen der Algorithmus gar nicht konvergiert hat.<br />
Als Alternative kam der Levenberg-Marquardt-Algorithmus in Frage, welcher als einer der<br />
Standard-Algorithmen im Fitting-Bereich gilt. Dieser hat sich bei den ersten Versuchen mit<br />
Testdaten als robuster entpuppt. Eine später vorgenommene Untersuchung mit synthetischen<br />
Daten zeigt ebenfalls, dass man mit dem LM-Algorithmus gute Ergebnisse erzielt (vgl. Kap.<br />
4). Deshalb fällt die Wahl für eine Fitting-Methode auf den LM-Algorithmus. Im Folgenden<br />
wird die prinzipielle Idee des LM-Algorithmus erläutert. Wegen der Komplexität des Verfahrens<br />
kann nicht auf alle Details eingegangen werden. Den interessierten Leser verweise ich auf<br />
[Madsen04], welcher eine überaus detaillierte Beschreibung des LM-Algorithmus gibt.<br />
Beim nichtlinearen Fitting und somit auch beim LM-Algorithmus wird eine Kostenfunktion<br />
minimiert, welche folgende Form hat:<br />
56