Quantitative Analyse von Protein-Massenspektren
Quantitative Analyse von Protein-Massenspektren Quantitative Analyse von Protein-Massenspektren
Ionisierungen beschränkt. Dies kann ohne Bedenken gemacht werden, weil mit zunehmender Zahl an Addukten die Wahrscheinlichkeit sinkt, dass sich solche bilden. Dementsprechend gering fällt die Intensität im Spektrum aus, d.h. meistens werden deren Signale im Spektrum eher untergehen. Im nächsten Schritt wird überprüft, ob die simulierten Addukt-Varianten mit den Peaks der Masse, dessen Hüllkurve bestimmt wird, überlagern. Falls diese überlagern, werden sie als Ausreißer markiert. Diese Variante hat sich als zu sensitiv herausgestellt. So ist die Zahl falsch positiver unverhältnismäßig groß. Für den zweiten Versuch die Ausreißer zu erkennen, wurde ein komplett anderer Weg eingeschlagen. Hierbei wird die Steigung als Kriterium verwendet. Die Idee ist folgende: Zunächst wird die y-Streuung der Punkte ermittelt und gespeichert. Als nächstes wird jeder Punkt der Hüllkurve betrachtet. Falls die Kurve links vom aktuell betrachteten Punkt steigt und rechts vom Punkt sinkt, und die Steigung einen von der Streuung abhängigen Schwellenwert überschreitet, wird der Punkt als Ausreißer markiert. Diese Variante hat sich im Vergleich zu erstgenannten als robuster erwiesen. Die Sensitivität kann anhand des Schwellenwerts erhöht oder verringert werden. Ein Nachteil hierbei ist, dass kein universeller Schwellenwert gesetzt werden kann. Für manche Spektren ist ein geringer Wert besser als ein hoher und bei anderen ist dieser Sachverhalt gerade umgekehrt. Die dritte Möglichkeit, welche ausprobiert wurde beruht auf der Annahme, dass die niedrigeren Punkte keine Ausreißer sind und die höheren Punkte eher Ausreißer darstellen können. D.h. wenn eine Verfälschung auftritt, dann durch Überlappung mit anderen Massen, was eine Steigerung der Signalintensität an entsprechender Stelle bewirkt. Zur Ausreißer-Erkennung wird wie folgt vorgegangen: Es wird eine Savitzky-Golay-Glättung der Datenpunkte durchgeführt mit einem Polynom 2ten Grades und 5 Datenpunkten als Fenstergröße. Man erhält dadurch eine Kurve, welche die Tendenz der Punkte aufzeigt. Alle Punkte die oberhalb der geglätteten Kurve liegen werden als Ausreißer markiert. In der Praxis hat sich diese Methode als die beste erwiesen und wird deshalb als automatische Erkennungsmethode in MF II angeboten. Neben den automatischen Erkennungsmechanismen, wird auch die Möglichkeit geboten, manuell Ausreißer zu bestimmen. 66
4. Technische Umsetzung In diesem Kapitel wird die Entwicklungsumgebung kurz vorgestellt, wobei teilweise auch auf Implementierungsdetails eingegangen wird. Eine Beschreibung der Programmoberfläche von Massfinder II lässt sich in Anhang C finden. Massfinder I, welches für die qualitative Analyse entwickelt wurde, ist komplett in der Skriptsprache Tcl/Tk geschrieben [ELehmann05]. Die Gründe hierfür lagen an den Möglichkeiten, schnell und einfach ein Programm zu entwickeln und zum anderen an der Tatsache, dass Tcl/Tk auf allen wichtigen Plattformen wie etwa Mac, Linux oder MS Windows eingesetzt werden kann. Eine der Hauptanforderungen war es, das existierende Programm durch Methoden für eine Quantifizierung zu erweitern. Eine komplette Neuentwicklung war also nicht erwünscht und somit stand die Vorgabe fest, Tcl/Tk als Programmiersprache zu verwenden. Abb. 4.1: Multi-Layer-Architektur von Massfinder II. Der Aufbau von Massfinder II entspricht einer Multi-Schicht-Architektur (vgl. Abb. 4.1). Das Programm gliedert sich in eine Präsentationsschicht, eine Logikschicht und eine Persistenzschicht. In der Präsentationsschicht sind die Dialogdarstellung sowie die Dialogsteuerung eingebaut. Als Programmiersprache wird hierfür eine objektorientierte Variante von Tcl/Tk verwendet, nämlich incr Tcl (http://incrtcl.sourceforge.net/itcl/). Die Logikschicht ist in ANSI-C geschrieben und implementiert die Geschäftsprozesse sowie damit verbundenen Funktionen. Schließlich gibt es noch die Persistenzschicht, welche die Datenhaltung regelt und ebenfalls in ANSI-C programmiert ist. Als Dateiformat für die Daten wird der XML (Extended Markup Language) Standard verwendet. Damit man von Tcl aus auf ANSI-C Prozeduren zugreifen kann, wird eine Tcl Erweiterungs- Bibliothek (DLL) erzeugt, welche die notwendigen Funktionen enthält. Zentraler Punkt in der 67
- Seite 17 und 18: 2. Ausgangssituation Antikörper si
- Seite 19 und 20: Die Frequenz, mit der sich bestimmt
- Seite 21 und 22: Die Immunglobuline lassen sich in f
- Seite 23 und 24: welche meistens über keine Glykosy
- Seite 25 und 26: Analog lässt sich auf diese Weise
- Seite 27 und 28: m R = (2.3.2) ∆m Dabei ist m die
- Seite 29 und 30: Die Hüllkurve repräsentiert die L
- Seite 31 und 32: werden, welche Massen im Spektrum v
- Seite 33: Peak-Überlappungen und für die Be
- Seite 36 und 37: Ein starkes Rauschen hat man z.B. d
- Seite 38 und 39: Nach optionaler Bestimmung der Hül
- Seite 40 und 41: 40 ∂ 0 = ∂a = 2 ⇒ ⇒ R ∑
- Seite 42 und 43: 3.3. Basislinie Die Basislinie enth
- Seite 44 und 45: Liste werden durch eine kubische Sp
- Seite 46 und 47: Dieser Mechanismus funktioniert nur
- Seite 48 und 49: tionen zu berechnen, multipliziert
- Seite 50 und 51: Der Algorithmus für die Berechnung
- Seite 52 und 53: 3.5. Simulation der Peakverbreiteru
- Seite 54 und 55: die Peakbreite nicht konstant ist.
- Seite 56 und 57: Um die Parameter der Basisfunktione
- Seite 58 und 59: 58 ⎛ df1 ⎜ ⎜ dx1 J ( x) = ⎜
- Seite 60 und 61: 60 2 R =1 − SSE SSM (3.6.2.1) SSE
- Seite 62 und 63: Um diese Probleme zu umgehen, werde
- Seite 64 und 65: Möglichkeit a) konnte nach einem B
- Seite 68 und 69: DLL ist die Methode DLLEXPORT int M
- Seite 70 und 71: statten gehen und zweitens nicht in
- Seite 72 und 73: ten Hüllkurve gezogen. Basierend a
- Seite 74 und 75: um vertreten sind, muss man Abstric
- Seite 76 und 77: Die Auswertung der Spektren findet
- Seite 78 und 79: Bei der manuellen Quantifizierung g
- Seite 80 und 81: Ein ähnliches Bild bietet sich, we
- Seite 82 und 83: Die Daten aus Anhang A sind in Tabe
- Seite 84 und 85: Ebenso wie bei der Simulation präs
- Seite 86 und 87: Im Hinblick auf die technische Umse
- Seite 88 und 89: 88 Molekül Massen Referenz Manuell
- Seite 90 und 91: 90 Basislinie: Tal zu Tal Basislini
- Seite 92 und 93: B. Quantifizierungsergebnisse empir
- Seite 94 und 95: Molekül Massen Basislinie: nicht a
- Seite 96 und 97: Molekül Massen Basislinie: nicht a
- Seite 98 und 99: Auf die Abbildung der dritten Seite
- Seite 100 und 101: 100
- Seite 102 und 103: Haver05 Prof. Tom O’Haver, Introd
Ionisierungen beschränkt. Dies kann ohne Bedenken gemacht werden, weil mit zunehmender<br />
Zahl an Addukten die Wahrscheinlichkeit sinkt, dass sich solche bilden. Dementsprechend gering<br />
fällt die Intensität im Spektrum aus, d.h. meistens werden deren Signale im Spektrum<br />
eher untergehen. Im nächsten Schritt wird überprüft, ob die simulierten Addukt-Varianten mit<br />
den Peaks der Masse, dessen Hüllkurve bestimmt wird, überlagern. Falls diese überlagern,<br />
werden sie als Ausreißer markiert. Diese Variante hat sich als zu sensitiv herausgestellt. So ist<br />
die Zahl falsch positiver unverhältnismäßig groß.<br />
Für den zweiten Versuch die Ausreißer zu erkennen, wurde ein komplett anderer Weg eingeschlagen.<br />
Hierbei wird die Steigung als Kriterium verwendet. Die Idee ist folgende: Zunächst<br />
wird die y-Streuung der Punkte ermittelt und gespeichert. Als nächstes wird jeder Punkt der<br />
Hüllkurve betrachtet. Falls die Kurve links vom aktuell betrachteten Punkt steigt und rechts<br />
vom Punkt sinkt, und die Steigung einen <strong>von</strong> der Streuung abhängigen Schwellenwert überschreitet,<br />
wird der Punkt als Ausreißer markiert. Diese Variante hat sich im Vergleich zu erstgenannten<br />
als robuster erwiesen. Die Sensitivität kann anhand des Schwellenwerts erhöht<br />
oder verringert werden. Ein Nachteil hierbei ist, dass kein universeller Schwellenwert gesetzt<br />
werden kann. Für manche Spektren ist ein geringer Wert besser als ein hoher und bei anderen<br />
ist dieser Sachverhalt gerade umgekehrt.<br />
Die dritte Möglichkeit, welche ausprobiert wurde beruht auf der Annahme, dass die niedrigeren<br />
Punkte keine Ausreißer sind und die höheren Punkte eher Ausreißer darstellen können.<br />
D.h. wenn eine Verfälschung auftritt, dann durch Überlappung mit anderen Massen, was eine<br />
Steigerung der Signalintensität an entsprechender Stelle bewirkt. Zur Ausreißer-Erkennung<br />
wird wie folgt vorgegangen: Es wird eine Savitzky-Golay-Glättung der Datenpunkte durchgeführt<br />
mit einem Polynom 2ten Grades und 5 Datenpunkten als Fenstergröße. Man erhält dadurch<br />
eine Kurve, welche die Tendenz der Punkte aufzeigt. Alle Punkte die oberhalb der geglätteten<br />
Kurve liegen werden als Ausreißer markiert. In der Praxis hat sich diese Methode als<br />
die beste erwiesen und wird deshalb als automatische Erkennungsmethode in MF II angeboten.<br />
Neben den automatischen Erkennungsmechanismen, wird auch die Möglichkeit geboten, manuell<br />
Ausreißer zu bestimmen.<br />
66