Quantitative Analyse von Protein-Massenspektren

Quantitative Analyse von Protein-Massenspektren Quantitative Analyse von Protein-Massenspektren

22.12.2012 Aufrufe

Um die Parameter der Basisfunktionen zu finden, welche der Hüllkurve zugrunde liegen, wird folgendermaßen vorgegangen: Als erstes wird eine Datenliste erstellt, welche alle freien Peaks der untersuchten Spezies enthält. Freie Peaks sind all diejenigen, welche nicht durch Peaks anderer Massen überlagert werden. Um auch extreme Fälle noch gut behandeln zu können, werden auch Peaks herangezogen, welche überlappen, wobei die Überlappung nicht mehr als 5% der Peakintensität einnehmen darf. Beim Fitting sind nichtlineare Transformationen der Daten nicht zulässig, da sie das Ergebnis verfälschen. Folglich kann beim Fitten nicht mit der m/z-Skala gearbeitet werden, weil die Transformation von I(z) nach I(m/z) nicht linear ist, d.h. die m/z-Werte der Datenpunkte müssen auf z-Werte umgerechnet werden. Mit diesen Datenpunkten wird anschließend ein Fitting der Basisfunktionen durchgeführt. Um genauer zu sein: es werden die Parameter gefittet. Im Falle der Gauß-Funktion sind diese Mittelpunkt, Amplitude und FWHM. 3.6.1. Levenberg-Marquardt-Algorithmus Für das Fitting der Basisfunktionen auf die Datenpunkte gibt es eine große Zahl an Algorithmen. Jedoch kommen nicht alle davon in Frage. Es gibt zwei Klassen an Fitting-Algorithmen: lineare und nichtlineare. Die erste Klasse scheidet für das hiesige Problem aus, weil es nicht linear ist. Folglich muss ein Algorithmus der nichtlinearen Fitting Klasse verwendet werden. Zunächst wurde die „Downhill Simplex“-Methode für Multidimensionen, entwickelt von Nelder und Mead, betrachtet. Diese wurde auch von [Dobo01] verwendet, welche mittels Entfaltung der Hüllkurve Konformationsanalysen von Proteinen durchgeführt haben. In einigen Tests mit einfachen Daten erwies sich dieser Algorithmus jedoch als ungeeignet, weil bei fast allen Läufen der Algorithmus gar nicht konvergiert hat. Als Alternative kam der Levenberg-Marquardt-Algorithmus in Frage, welcher als einer der Standard-Algorithmen im Fitting-Bereich gilt. Dieser hat sich bei den ersten Versuchen mit Testdaten als robuster entpuppt. Eine später vorgenommene Untersuchung mit synthetischen Daten zeigt ebenfalls, dass man mit dem LM-Algorithmus gute Ergebnisse erzielt (vgl. Kap. 4). Deshalb fällt die Wahl für eine Fitting-Methode auf den LM-Algorithmus. Im Folgenden wird die prinzipielle Idee des LM-Algorithmus erläutert. Wegen der Komplexität des Verfahrens kann nicht auf alle Details eingegangen werden. Den interessierten Leser verweise ich auf [Madsen04], welcher eine überaus detaillierte Beschreibung des LM-Algorithmus gibt. Beim nichtlinearen Fitting und somit auch beim LM-Algorithmus wird eine Kostenfunktion minimiert, welche folgende Form hat: 56

F 1 2 m ∑ i= 1 ( x) = ( f ( ) ) i x 2 Die zu optimierenden Parameter sind im Vektor x ( x x ,..., x ) 1, 2 n (3.6.1.1) = abgelegt. Bei n f : ℜ a ℜ, i = 1,..., m ∧ m ≥ n handelt es sich um die Residuenfunktion. Sei das Fitting- i Modell M(x,t), dann ist fi(x)=yi-M(x,ti). Um die Darstellung zu vereinfachen, wird der Vektor f(x)=(f1(x),f2(x),…,fm(x)) definiert und man erhält: F m 1 1 1 T = ∑ i 2 i= 1 2 2 2 2 ( x) ( f ( x) ) = f ( x) = f ( x) f ( x) (3.6.1.2) Es wird angenommen, dass die Kostenfunktion 2fach differenzierbar und glatt ist, so dass die folgende Taylor-Approximation anwendbar ist: F T ' 1 T '' 3 ( x h) = F( x) + h F ( x) + h F ( x) h + O( h ) + (3.6.1.3) 2 Damit berechnet man die Kosten, wenn vom aktuellen Parametervektor x um h:=t-x „Schritte“ nach x+h gegangen wird. Die O-Notation am Ende der Gleichung, zeigt wo die Taylor- Reihe abgeschnitten wurde. Hier betrifft dies alle Terme dritter Ordnung oder höher – diese werden ignoriert, da sie nicht signifikant sind. Die erste Ableitung F ’ (x) entspricht dem Gradienten g(x) und die zweite Ableitung F ’’ (x) der Hesse-Matrix H(x). Sei x * ein lokales Minimum, dann gilt: g(x)=F ’ (x * )=0. Dies ist eine notwendige, aber nicht ausreichende Bedingung: Die erste Ableitung ergibt auch für Sattelpunkte Null. Um eine ausreichende Bedingung zu erhalten, muss zusätzlich gelten, dass die zweite Ableitung ungleich Null ist, d.h. H(x)=F ’’ (x * ) ist positiv definit. Falls H(x) negativ definit wäre, hätte man ein lokales Maximum gefunden. Bei der nichtlinearen Optimierung wird iterativ vorgegangen. Mit jedem Schritt von xk nach xk+1 wird F(xk) minimiert, d.h. F(xk)>F(xk+1). Optimalerweise hat man eine Methode, welche abhängig vom aktuellen Gradienten kleine bzw. große Schritte h durchführt. Ist der Gradient klein, sollten große Schritte gemacht werden, ist der Gradient hingegen groß, sind kleine Schritte wünschenswert. Dies soll bewirken, dass man in einem kleinen Tal (schlechtes lokales Minimum) nicht hängen bleibt und zum anderen, dass man ein gutes lokales Minimum nicht übersieht. Wenn h klein ist, kann man f durch eine Taylor-Reihe approximieren: 2 f ( x + h) = f ( x) + J ( x) h + O( h ) ≅ l( h) ≡ f ( x) + J ( x) h (3.6.1.4) J steht für die Jakobi-Matrix: 57

Um die Parameter der Basisfunktionen zu finden, welche der Hüllkurve zugrunde liegen, wird<br />

folgendermaßen vorgegangen: Als erstes wird eine Datenliste erstellt, welche alle freien Peaks<br />

der untersuchten Spezies enthält. Freie Peaks sind all diejenigen, welche nicht durch Peaks<br />

anderer Massen überlagert werden. Um auch extreme Fälle noch gut behandeln zu können,<br />

werden auch Peaks herangezogen, welche überlappen, wobei die Überlappung nicht mehr als<br />

5% der Peakintensität einnehmen darf. Beim Fitting sind nichtlineare Transformationen der<br />

Daten nicht zulässig, da sie das Ergebnis verfälschen. Folglich kann beim Fitten nicht mit der<br />

m/z-Skala gearbeitet werden, weil die Transformation <strong>von</strong> I(z) nach I(m/z) nicht linear ist, d.h.<br />

die m/z-Werte der Datenpunkte müssen auf z-Werte umgerechnet werden. Mit diesen Datenpunkten<br />

wird anschließend ein Fitting der Basisfunktionen durchgeführt. Um genauer zu sein:<br />

es werden die Parameter gefittet. Im Falle der Gauß-Funktion sind diese Mittelpunkt, Amplitude<br />

und FWHM.<br />

3.6.1. Levenberg-Marquardt-Algorithmus<br />

Für das Fitting der Basisfunktionen auf die Datenpunkte gibt es eine große Zahl an Algorithmen.<br />

Jedoch kommen nicht alle da<strong>von</strong> in Frage. Es gibt zwei Klassen an Fitting-Algorithmen:<br />

lineare und nichtlineare. Die erste Klasse scheidet für das hiesige Problem aus, weil es nicht<br />

linear ist. Folglich muss ein Algorithmus der nichtlinearen Fitting Klasse verwendet werden.<br />

Zunächst wurde die „Downhill Simplex“-Methode für Multidimensionen, entwickelt <strong>von</strong><br />

Nelder und Mead, betrachtet. Diese wurde auch <strong>von</strong> [Dobo01] verwendet, welche mittels Entfaltung<br />

der Hüllkurve Konformationsanalysen <strong>von</strong> <strong>Protein</strong>en durchgeführt haben. In einigen<br />

Tests mit einfachen Daten erwies sich dieser Algorithmus jedoch als ungeeignet, weil bei fast<br />

allen Läufen der Algorithmus gar nicht konvergiert hat.<br />

Als Alternative kam der Levenberg-Marquardt-Algorithmus in Frage, welcher als einer der<br />

Standard-Algorithmen im Fitting-Bereich gilt. Dieser hat sich bei den ersten Versuchen mit<br />

Testdaten als robuster entpuppt. Eine später vorgenommene Untersuchung mit synthetischen<br />

Daten zeigt ebenfalls, dass man mit dem LM-Algorithmus gute Ergebnisse erzielt (vgl. Kap.<br />

4). Deshalb fällt die Wahl für eine Fitting-Methode auf den LM-Algorithmus. Im Folgenden<br />

wird die prinzipielle Idee des LM-Algorithmus erläutert. Wegen der Komplexität des Verfahrens<br />

kann nicht auf alle Details eingegangen werden. Den interessierten Leser verweise ich auf<br />

[Madsen04], welcher eine überaus detaillierte Beschreibung des LM-Algorithmus gibt.<br />

Beim nichtlinearen Fitting und somit auch beim LM-Algorithmus wird eine Kostenfunktion<br />

minimiert, welche folgende Form hat:<br />

56

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!