Quantitative Analyse von Protein-Massenspektren

Quantitative Analyse von Protein-Massenspektren Quantitative Analyse von Protein-Massenspektren

22.12.2012 Aufrufe

Ionisierungen beschränkt. Dies kann ohne Bedenken gemacht werden, weil mit zunehmender Zahl an Addukten die Wahrscheinlichkeit sinkt, dass sich solche bilden. Dementsprechend gering fällt die Intensität im Spektrum aus, d.h. meistens werden deren Signale im Spektrum eher untergehen. Im nächsten Schritt wird überprüft, ob die simulierten Addukt-Varianten mit den Peaks der Masse, dessen Hüllkurve bestimmt wird, überlagern. Falls diese überlagern, werden sie als Ausreißer markiert. Diese Variante hat sich als zu sensitiv herausgestellt. So ist die Zahl falsch positiver unverhältnismäßig groß. Für den zweiten Versuch die Ausreißer zu erkennen, wurde ein komplett anderer Weg eingeschlagen. Hierbei wird die Steigung als Kriterium verwendet. Die Idee ist folgende: Zunächst wird die y-Streuung der Punkte ermittelt und gespeichert. Als nächstes wird jeder Punkt der Hüllkurve betrachtet. Falls die Kurve links vom aktuell betrachteten Punkt steigt und rechts vom Punkt sinkt, und die Steigung einen von der Streuung abhängigen Schwellenwert überschreitet, wird der Punkt als Ausreißer markiert. Diese Variante hat sich im Vergleich zu erstgenannten als robuster erwiesen. Die Sensitivität kann anhand des Schwellenwerts erhöht oder verringert werden. Ein Nachteil hierbei ist, dass kein universeller Schwellenwert gesetzt werden kann. Für manche Spektren ist ein geringer Wert besser als ein hoher und bei anderen ist dieser Sachverhalt gerade umgekehrt. Die dritte Möglichkeit, welche ausprobiert wurde beruht auf der Annahme, dass die niedrigeren Punkte keine Ausreißer sind und die höheren Punkte eher Ausreißer darstellen können. D.h. wenn eine Verfälschung auftritt, dann durch Überlappung mit anderen Massen, was eine Steigerung der Signalintensität an entsprechender Stelle bewirkt. Zur Ausreißer-Erkennung wird wie folgt vorgegangen: Es wird eine Savitzky-Golay-Glättung der Datenpunkte durchgeführt mit einem Polynom 2ten Grades und 5 Datenpunkten als Fenstergröße. Man erhält dadurch eine Kurve, welche die Tendenz der Punkte aufzeigt. Alle Punkte die oberhalb der geglätteten Kurve liegen werden als Ausreißer markiert. In der Praxis hat sich diese Methode als die beste erwiesen und wird deshalb als automatische Erkennungsmethode in MF II angeboten. Neben den automatischen Erkennungsmechanismen, wird auch die Möglichkeit geboten, manuell Ausreißer zu bestimmen. 66

4. Technische Umsetzung In diesem Kapitel wird die Entwicklungsumgebung kurz vorgestellt, wobei teilweise auch auf Implementierungsdetails eingegangen wird. Eine Beschreibung der Programmoberfläche von Massfinder II lässt sich in Anhang C finden. Massfinder I, welches für die qualitative Analyse entwickelt wurde, ist komplett in der Skriptsprache Tcl/Tk geschrieben [ELehmann05]. Die Gründe hierfür lagen an den Möglichkeiten, schnell und einfach ein Programm zu entwickeln und zum anderen an der Tatsache, dass Tcl/Tk auf allen wichtigen Plattformen wie etwa Mac, Linux oder MS Windows eingesetzt werden kann. Eine der Hauptanforderungen war es, das existierende Programm durch Methoden für eine Quantifizierung zu erweitern. Eine komplette Neuentwicklung war also nicht erwünscht und somit stand die Vorgabe fest, Tcl/Tk als Programmiersprache zu verwenden. Abb. 4.1: Multi-Layer-Architektur von Massfinder II. Der Aufbau von Massfinder II entspricht einer Multi-Schicht-Architektur (vgl. Abb. 4.1). Das Programm gliedert sich in eine Präsentationsschicht, eine Logikschicht und eine Persistenzschicht. In der Präsentationsschicht sind die Dialogdarstellung sowie die Dialogsteuerung eingebaut. Als Programmiersprache wird hierfür eine objektorientierte Variante von Tcl/Tk verwendet, nämlich incr Tcl (http://incrtcl.sourceforge.net/itcl/). Die Logikschicht ist in ANSI-C geschrieben und implementiert die Geschäftsprozesse sowie damit verbundenen Funktionen. Schließlich gibt es noch die Persistenzschicht, welche die Datenhaltung regelt und ebenfalls in ANSI-C programmiert ist. Als Dateiformat für die Daten wird der XML (Extended Markup Language) Standard verwendet. Damit man von Tcl aus auf ANSI-C Prozeduren zugreifen kann, wird eine Tcl Erweiterungs- Bibliothek (DLL) erzeugt, welche die notwendigen Funktionen enthält. Zentraler Punkt in der 67

Ionisierungen beschränkt. Dies kann ohne Bedenken gemacht werden, weil mit zunehmender<br />

Zahl an Addukten die Wahrscheinlichkeit sinkt, dass sich solche bilden. Dementsprechend gering<br />

fällt die Intensität im Spektrum aus, d.h. meistens werden deren Signale im Spektrum<br />

eher untergehen. Im nächsten Schritt wird überprüft, ob die simulierten Addukt-Varianten mit<br />

den Peaks der Masse, dessen Hüllkurve bestimmt wird, überlagern. Falls diese überlagern,<br />

werden sie als Ausreißer markiert. Diese Variante hat sich als zu sensitiv herausgestellt. So ist<br />

die Zahl falsch positiver unverhältnismäßig groß.<br />

Für den zweiten Versuch die Ausreißer zu erkennen, wurde ein komplett anderer Weg eingeschlagen.<br />

Hierbei wird die Steigung als Kriterium verwendet. Die Idee ist folgende: Zunächst<br />

wird die y-Streuung der Punkte ermittelt und gespeichert. Als nächstes wird jeder Punkt der<br />

Hüllkurve betrachtet. Falls die Kurve links vom aktuell betrachteten Punkt steigt und rechts<br />

vom Punkt sinkt, und die Steigung einen <strong>von</strong> der Streuung abhängigen Schwellenwert überschreitet,<br />

wird der Punkt als Ausreißer markiert. Diese Variante hat sich im Vergleich zu erstgenannten<br />

als robuster erwiesen. Die Sensitivität kann anhand des Schwellenwerts erhöht<br />

oder verringert werden. Ein Nachteil hierbei ist, dass kein universeller Schwellenwert gesetzt<br />

werden kann. Für manche Spektren ist ein geringer Wert besser als ein hoher und bei anderen<br />

ist dieser Sachverhalt gerade umgekehrt.<br />

Die dritte Möglichkeit, welche ausprobiert wurde beruht auf der Annahme, dass die niedrigeren<br />

Punkte keine Ausreißer sind und die höheren Punkte eher Ausreißer darstellen können.<br />

D.h. wenn eine Verfälschung auftritt, dann durch Überlappung mit anderen Massen, was eine<br />

Steigerung der Signalintensität an entsprechender Stelle bewirkt. Zur Ausreißer-Erkennung<br />

wird wie folgt vorgegangen: Es wird eine Savitzky-Golay-Glättung der Datenpunkte durchgeführt<br />

mit einem Polynom 2ten Grades und 5 Datenpunkten als Fenstergröße. Man erhält dadurch<br />

eine Kurve, welche die Tendenz der Punkte aufzeigt. Alle Punkte die oberhalb der geglätteten<br />

Kurve liegen werden als Ausreißer markiert. In der Praxis hat sich diese Methode als<br />

die beste erwiesen und wird deshalb als automatische Erkennungsmethode in MF II angeboten.<br />

Neben den automatischen Erkennungsmechanismen, wird auch die Möglichkeit geboten, manuell<br />

Ausreißer zu bestimmen.<br />

66

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!