Quantitative Analyse von Protein-Massenspektren
Quantitative Analyse von Protein-Massenspektren
Quantitative Analyse von Protein-Massenspektren
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
LUDWIG - MAXIMILIANS - UNIVERSITÄT<br />
TECHNISCHE UNIVERSITÄT MÜNCHEN<br />
Lehr- und Forschungseinheit<br />
Bioinformatik<br />
Diplomarbeit<br />
in Bioinformatik<br />
<strong>Quantitative</strong> <strong>Analyse</strong> <strong>von</strong><br />
<strong>Protein</strong>-<strong>Massenspektren</strong><br />
Alex Kohn<br />
Aufgabensteller: Prof. Dr. Volker Heun<br />
Betreuer: Dr. Alexander Manta<br />
Abgabedatum: 15.10.2005
Erklärung<br />
Ich versichere, dass ich diese Diplomarbeit selbständig verfasst und nur die angegebenen<br />
Quellen und Hilfsmittel benutzt habe.<br />
15. Oktober 2005 ____________________________<br />
Alex Kohn<br />
3
Danksagung<br />
Ich danke Prof. Dr. Volker Heun für seine Betreuung und Beratung während der Diplomarbeit<br />
ganz herzlich. Dr. Jörg Regula, Dr. Hans Koll, Dr. Engler Niklas und Achim Gärtner danke<br />
ich für die Bereitstellung empirischer Daten und für deren Ratschläge und Erklärungen. Silke<br />
Schneid-Müller und Mautz Björn danke ich für die manuelle Quantifizierung der synthetischen<br />
Daten. Ich möchte mich auch bei Eckhard Lehmann, für die Hilfestellung in der Einarbeitungsphase<br />
und für seine Denkanstöße, bedanken.<br />
Ganz besonderer Dank gilt Herrn Dr. Alexander Manta, für seine Betreuung und die aufschlussreichen<br />
Diskussionen, die ich mit ihm führen durfte.<br />
Danke auch an die gesamte TR-I Abteilung der Roche Diagnostics GmbH für die vielen informativen<br />
Gespräche und für die hervorragende Arbeitsatmosphäre.<br />
5
Zusammenfassung<br />
Die Elektrospray-Ionisations-Massenspektrometrie (ESI-MS) ist ein weit verbreitetes Werkzeug<br />
in der Analytik großer Biomoleküle. Im Fall <strong>von</strong> Antikörpern liegt der Schwerpunkt in<br />
der Untersuchung posttranslationaler Modifikationen. Das Glykosylierungsmuster eines Antikörpers<br />
entscheidet oft über dessen Funktion im Immunsystem [Jefferis05].<br />
Für die medizinische Therapeutik ist es essentiell, zwischen verschiedenen Antikörperspezies<br />
(Glykosylierungsvarianten) zu diskriminieren. Nur ein Bruchteil der <strong>von</strong> einer Zelle sezernierten<br />
Antikörperspezien erfüllen die Eigenschaft, das richtige Zielprotein zu binden. Der Rest<br />
hat andere Eigenschaften und kann sogar schädliche Nebenwirkungen zur Folge haben. Für<br />
die industrielle Antikörperproduktion ist es aus diesem Grund wichtig, zu wissen, in welchen<br />
Verhältnissen die relativen Anteile der jeweiligen Spezies stehen. Dieser Quantifizierungsprozess<br />
kann direkt mit ESI-MS-Spektren durchgeführt werden.<br />
Existierende Quantifizierungsmethoden sind häufig auf kleine Peptide spezialisiert und eignen<br />
sich nicht für die Quantifizierung großer Moleküle. Lösungen, mit denen man auch große<br />
Glykoproteine quantifizieren kann, sind häufig aufwendig zu bedienen und nicht robust genug<br />
beim Quantifizieren. Im Rahmen dieser Diplomarbeit werden neue Methoden für die Quantifizierung<br />
<strong>von</strong> ESI-MS-Spektren großer Biomoleküle vorgestellt, welche nicht die erwähnten<br />
Mängel besitzen.<br />
Abstract<br />
Electrospray ionization mass spectrometry (ESI-MS) is a very powerful tool for the analysis of<br />
large biomolecules such as antibodies. The main interest here lies in the posttranslational<br />
modifications of proteins. In the case of antibodies these glycations often determine key functions<br />
[Jefferis05]. In antibody therapeutics it is important to discriminate between those species<br />
(glycation variants) which have a positive effect on the curing of diseases and those<br />
which have negative side effects. For this reason one needs to determine the relative amount<br />
of each species in a probe. This quantification process can be done directly in ESI mass spectra.<br />
Unfortunately the existing quantification methods lack user-friendliness and robustness. In<br />
this publication, new methods for the quantification of ESI-MS spectra, which do not have<br />
these limitations, have been developed.<br />
7
Inhalt<br />
Seite<br />
Liste der Abkürzungen .......................................................................................................... 11<br />
1. Einleitung ............................................................................................................. 13<br />
1.1. Motivation ............................................................................................................. 13<br />
1.2. Ziel der Arbeit ....................................................................................................... 14<br />
2. Ausgangssituation ................................................................................................ 17<br />
2.1. ESI-Massenspektrometrie ...................................................................................... 17<br />
2.2. Glykoproteine ........................................................................................................ 20<br />
2.3. ESI-MS-Spektren <strong>von</strong> Glykoproteinen ................................................................. 24<br />
2.4. Bestehende Software ............................................................................................. 29<br />
2.5. Anforderungen ....................................................................................................... 32<br />
3. Konzepte ............................................................................................................... 35<br />
3.1. Lösungswege ......................................................................................................... 35<br />
3.2. Glättung ................................................................................................................. 38<br />
3.3. Basislinie ............................................................................................................... 42<br />
3.3.1. Von Tal zu Tal ....................................................................................................... 43<br />
3.3.2. Kubische Spline-Interpolation ............................................................................... 43<br />
3.3.3. Vierte Ableitung .................................................................................................... 45<br />
8
3.4. Isotopenverteilung ................................................................................................. 46<br />
3.5. Simulation der Peakverbreiterung ......................................................................... 52<br />
3.6. Curve-Fitting ......................................................................................................... 54<br />
3.6.1. Levenberg-Marquardt-Algorithmus ...................................................................... 56<br />
3.6.2. Güteparameter ....................................................................................................... 59<br />
3.6.3. Optimierung des Fittings ....................................................................................... 61<br />
3.6.4. Ausreißer ............................................................................................................... 63<br />
4. Technische Umsetzung ........................................................................................ 67<br />
5. Validierung .......................................................................................................... 71<br />
5.1. Validierung des Hüllkurven-Fittings ..................................................................... 71<br />
5.2. Validierung der Quantifizierungspipeline ............................................................. 74<br />
5.3. Experimentelle Resultate ....................................................................................... 83<br />
6. Zusammenfassung und Ausblick ....................................................................... 85<br />
Anhang ............................................................................................................................... 87<br />
A. Quantifizierungsergebnisse synthetischer Spektren .............................................. 87<br />
B. Quantifizierungsergebnisse empirischer Spektren ................................................ 92<br />
C. Massfinder II.......................................................................................................... 97<br />
Literaturverzeichnis ............................................................................................................. 101<br />
9
Liste der Abkürzungen<br />
Ara L-Arabinose<br />
amu atoms per mass unit<br />
D Dalton, 1D=1.665402*10 -27 kg<br />
DLL Dynamic Link Library<br />
DOF Degree of Freedom<br />
ESI Elektrospray Ionisation<br />
FAB Fast Atom Bombardment<br />
FFT Fast Fourier Transformation<br />
Fuc L-Fukose<br />
FWHM Full Width at Half Maximum<br />
Gal D-Galaktose<br />
GalNAc N-Acetyl-D-Galaktosamin<br />
Glc D-Glukose<br />
GlcNAc N-Acetyl-D-Glukosamin<br />
GUI Graphical User Interface<br />
k Kilo<br />
log, ln natürlicher Logarithmus<br />
LM Levenberg-Marquardt<br />
MALDI Matrix-Assisted Laser Desorption/Ionization<br />
Man D-Mannose<br />
MS Massenspektrometrie<br />
MF Massfinder<br />
NANA N-Acetylneuraminsäure bzw. Sialinsäure<br />
SVD Singular Value Decomposition / Eigenwertzerlegung<br />
V Volt<br />
eV Elektronen-Volt<br />
Xyl D-Xylose<br />
11
1. Einleitung<br />
Die Massenspektrometrie (MS) ist ein sehr bedeutendes Werkzeug in der Analytik organischer<br />
Verbindungen. Sie findet Anwendung in der Substanzanalyse <strong>von</strong> Gemischen, in der<br />
Sequenzierung <strong>von</strong> Biomolekülen, in der Qualitätskontrolle <strong>von</strong> Medikamenten und vielem<br />
mehr. Es gibt eine Vielzahl <strong>von</strong> Geräteklassen für die MS, wobei die Elektrospray-<br />
Ionisations-Massenspektrometrie (ESI-MS) der wichtigste Vertreter ist. Besonders interessant<br />
ist die MS für die Analytik großer Moleküle wie etwa Antikörper, da sie es ermöglicht, die<br />
Moleküle als Ganzes zu untersuchen. Somit ist eine Fragmentierung der <strong>Protein</strong>e in kleine<br />
Peptide nicht mehr notwendig, was weitere Fehlerquellen ausschließt, Kosten reduziert und<br />
Zeit bei dem <strong>Analyse</strong>prozess einspart.<br />
1.1. Motivation<br />
<strong>Protein</strong>e werden häufig durch Glykosylierung posttranslational modifiziert. Die Glykosylierungsarten<br />
eines <strong>Protein</strong>s üben einen großen Einfluss auf deren Funktion aus. Besonders gut<br />
charakterisiert ist dieser Sachverhalt bei Antikörpern: Hier entscheiden Glykosylierungen über<br />
die Aktivierung <strong>von</strong> Effektor-Mechanismen des adaptiven Immunsystems [Jefferis05]. Eine<br />
Zelle produziert i.d.R. nicht eine Glykovariante eines Antikörpers, sondern eine Vielzahl verschiedener<br />
Varianten (sog. Mikroheterogenität) [Raju03]. Dies ist einerseits eine wünschenswerte<br />
Eigenschaft, weil dadurch die Flexibilität des Immunsystems gesteigert wird. Andererseits<br />
ist dies für die medizinische Anwendung <strong>von</strong> Antikörpern jedoch ungünstig, weil oft nur<br />
wenige Glykovarianten eines Antikörpers die gewünschte therapeutische Wirkung entfalten.<br />
Die Herstellung monoklonaler Antikörper (eine Glykovariante) ist deshalb eminent. Regelmäßige<br />
Qualitätskontrollen der pharmazeutischen Produktion sind wichtig, um sicher zu stellen,<br />
dass keine Verunreinigungen durch fremde Glykoformen vorhanden sind. Übersteigen z.B.<br />
bestimmte Glykoformen eines <strong>Protein</strong>s einen gewissen Konzentrationsanteil, können schädliche<br />
Nebenwirkungen für den Patienten auftreten.<br />
Die Probenanalyse lässt sich mit der ESI-MS tätigen. Die gewonnenen Spektren enthalten Informationen<br />
über die in der Probe vorhandenen Massen und deren Intensitäten. Die Bestimmung<br />
der Massen ist mit Hilfe <strong>von</strong> Entfaltungsalgorithmen wie z.B. dem „Maximum-<br />
Entropie“-Algorithmus (MaxEnt) möglich [Reinhold92]. Der MaxEnt-Entfaltungsprozess<br />
führt eine auf der Entropie basierten Rekonstruktion des Spektrums durch. Als Ergebnis erhält<br />
man eine Liste mit den im Spektrum vorhandenen Massen und deren wahrscheinlichen Quantitäten.<br />
Ausgehend <strong>von</strong> der MaxEnt-Massenliste und der Referenzmasse des untersuchten <strong>Protein</strong>s,<br />
können dessen Zuckermodifikationen ermittelt werden. Die Schwierigkeit hierbei besteht<br />
im Auffinden der richtigen Kombination, denn es gibt eine Vielzahl an Glykoformen und<br />
13
somit viele Kombinationen, die auf ihre Richtigkeit hin überprüft werden müssen. Der MaxEnt-Algorithmus<br />
liefert zwar Informationen über die wahrscheinlichen Quantitäten der ermittelten<br />
Massen, diese weisen aber eine Nichtlinearität auf [Reinhold92], weshalb die Ergebnisse<br />
in der Praxis nur <strong>von</strong> wenigen Laboranten herangezogen werden. Bei Verwendung der<br />
so ermittelten Massenverhältnisse kann man sich nie über die Größe der Nichtlinearität bzw.<br />
des Fehlers sicher sein. In Folge dessen muss man für die zuverlässige Bestimmung der Quantitäten<br />
andere Wege einschlagen.<br />
Das Bestimmen der richtigen Quantitäten ist bei Spektren großer Biomoleküle keine triviale<br />
Aufgabe: Das Massenspektrum ist eine Überlagerung mehrerer Peakserien. Dadurch ist die<br />
Basislinie nach oben verschoben, einzelne Peaks sind nicht mehr sichtbar, Peakhöhen und<br />
Formen werden durch Summierung mehrerer Peaks verfälscht. Die Peaks verlieren durch<br />
Überlagerung die Gauß-Form, sie bekommen Schultern, Sättel, etc. All diese Punkte erschweren<br />
eine Quantifizierung erheblich.<br />
Bei der Quantifizierung per Hand ist die Reproduzierbarkeit nur bei „erfahrenen“ Laboranten<br />
gewährleistet. Die Bewertungsergebnisse „unerfahrener“ Laboranten weisen eine große Streuung<br />
auf. Der Hauptgrund hierfür ist in der Tatsache begründet, dass bei der manuellen Messung<br />
nur wenige Peaks als Berechnungsgrundlage dienen. Weil Peaks durch andere verfälscht<br />
sein können, kann es bei ungünstiger Peakauswahl zur Berechnung falscher Massenverhältnisse<br />
kommen. Solche Fälle können z.B. auftreten, wenn die Peaks durch andere Massen wie<br />
z.B. Addukte überlagert werden. Addukte sind Zusammenschlüsse zwischen in der Lösung<br />
befindlichen Ionen und Analyten.<br />
Auf dem Markt existieren Lösungen für die Quantifizierung <strong>von</strong> ESI-MS-Spektren. Jedoch<br />
sind diese Softwareprodukte meistens auf die Quantifizierung kleiner Peptide spezialisiert.<br />
Große Biomoleküle wie Antikörper lassen sich damit nur bedingt quantifizieren. Um die<br />
Quantitäten der Analyten korrekt zu bestimmen, ist deshalb die Entwicklung neuer Verfahren<br />
notwendig, welche zuverlässig, robust und reproduzierbar quantifizieren.<br />
1.2. Ziel der Arbeit<br />
Das Ziel der Arbeit ist es, Methoden für die Quantifizierung <strong>von</strong> ESI-MS-<strong>Protein</strong>spektren zu<br />
entwickeln. Die entwickelten Methoden werden in die bereits bestehende Softwarelösung<br />
Massfinder (MF) eingebaut. MF I wurde im Rahmen einer Diplomarbeit an der FH Weihenstephan<br />
entwickelt [ELehman05] und ist für die qualitative <strong>Analyse</strong> <strong>von</strong> ESI-MS-Spektren<br />
konzipiert worden. Durch die Einbindung in das bestehende Programm soll ein optimaler Arbeitsablauf<br />
zwischen qualitativer und quantitativer <strong>Analyse</strong> der Spektren erreicht werden.<br />
14
Damit die Messung der Quantitäten möglichst unabhängig vom jeweiligen Benutzer ist, soll<br />
ein weitestgehend automatisiertes Quantifizierungsverfahren entwickelt werden. Dabei soll<br />
die Automatisierung mindestens die gleiche Genauigkeit haben wie die des „erfahrenen“ Laboranten.<br />
Um das zu bewerkstelligen muss das Problem der Peaküberlappung und die damit<br />
verbundene Verfälschung der Signalintensität gelöst werden.<br />
Die Bestimmung der Güte der entwickelten Methoden ist bei empirischen Daten nicht ohne<br />
weiteres möglich. Deswegen wird am Ende der Arbeit eine Evaluierung anhand <strong>von</strong> Monte-<br />
Carlo-Simulationen vollzogen. Es werden künstliche Daten erzeugt und mit Teilen des Programms<br />
bzw. mit der kompletten Prozesspipeline ausgewertet. Zusätzlich werden auch andere<br />
gängige Methoden der Quantifizierung in die Evaluierung mit einbezogen. Dadurch ist ein<br />
Vergleich der Verfahren untereinander möglich.<br />
Mit der Weiterentwicklung <strong>von</strong> Massfinder wird eine robuste und vielseitig anwendbare Plattform<br />
für die Quantifizierung geschaffen, welche nicht die Mängel anderer Lösungen aufweist.<br />
15
2. Ausgangssituation<br />
Antikörper sind Glykoproteine, die für die Immunabwehr des Organismus <strong>von</strong> zentraler Bedeutung<br />
sind. Folglich sind sie auch für die Pharmaforschung <strong>von</strong> großem Interesse, schließlich<br />
können diese, falls richtig eingesetzt, als Therapeutika verwendet werden. Die Analytik<br />
<strong>von</strong> Glykoproteinen bzw. Antikörpern ist aufgrund der Anzahl möglicher Glykoformen sehr<br />
komplex. Um diese Komplexität zu minimieren, werden häufig Oligosaccharid und <strong>Protein</strong><br />
separat analysiert. Dies hat allerdings den Nachteil, dass die Positionsinformation verloren<br />
geht. Für die Charakterisierung <strong>von</strong> einfach glykosylierten Antikörpern eignen sich Massenspektrometer<br />
besonders gut. Zum einen können mit geringsten Probenmengen verlässliche<br />
Daten geliefert werden und zum anderen kann das Glykoprotein als Ganzes analysiert werden.<br />
Für die Auswertung der Daten bedarf es leistungsfähiger Software, welche in der Lage ist, die<br />
relevanten Informationen für den Biologen herauszugreifen.<br />
Im Folgenden werden die technischen Grundlagen im Hinblick auf die Massenspektrometrie<br />
vermittelt. Des Weiteren werden einige biologische Fakten über Glykoproteine, im speziellen<br />
Antikörper, vermittelt. Anschließend wird ein Überblick über vorhandene Softwareprodukte<br />
gegeben und gezeigt, warum diese allein für eine befriedigende Lösung der hiesigen Thematik<br />
nicht ausreichend sind. Am Ende dieses Kapitels werden die Anforderungen beschrieben,<br />
welchen eine neue Lösung gerecht werden muss.<br />
2.1. ESI-Massenspektrometrie<br />
Die Massenspektrometrie hat in den letzten Jahrzehnten stetig an Bedeutung gewonnen und<br />
ist heutzutage kaum mehr aus der Analytik wegzudenken. Historisch hatte die MS ihre Hauptanwendung<br />
in der Untersuchung <strong>von</strong> physikalischen und chemischen Prozessen v. a. in der<br />
Ölindustrie. Durch den raschen technischen Fortschritt wurde es bald möglich, auch biochemische<br />
<strong>Analyse</strong>n hochmolekularer Substanzen durchzuführen. Zunächst waren es Lipide mit<br />
bis zu 1 kD, heutzutage kann man dank moderner Ionisierungsmethoden komplexe <strong>Protein</strong>e<br />
mit bis zu 250 kD untersuchen [Lehmann96].<br />
Mit Hilfe der MS kann man u.a.:<br />
• bekannte Substanzen in einem Gemisch identifizieren;<br />
• eine quantitative <strong>Analyse</strong> bekannter Substanzen eines Gemisches durchführen;<br />
• die Struktur unbekannter Verbindungen analysieren;<br />
• Biomoleküle strukturell charakterisieren;<br />
• <strong>Protein</strong>e und Peptide sequenzieren.<br />
17
Ein Massenspektrometer besteht aus einer Ionenquelle, einem Massenanalysator und einem<br />
Detektor (vgl. Abb. 2.1.1). Organische oder anorganische Moleküle werden ionisiert, um anschließend<br />
nach ihrem Verhältnis <strong>von</strong> Masse zu Ladung (m/z) getrennt zu werden. Ein Detektor<br />
misst die Treffer (Intensität) zu jedem m/z Wert. Für die Ionisierung existieren verschiedene<br />
Methoden. Je nach Wahl erhält man niedrig bis hoch ionisierte Moleküle. Bei den Massenanalysatoren<br />
existiert ebenfalls eine große Zahl an Varianten. [Gross04]<br />
Als Resultat der Messung erhält man ein Spektrum, welches einen zweidimensionalen Abdruck<br />
der Intensität gegen die m/z Werte enthält.<br />
Die Elektrospray-Ionisation ist wegen ihrer besonderen Eigenschaften häufig das Verfahren<br />
der Wahl, wenn es um die Ionisierung <strong>von</strong> <strong>Protein</strong>en geht. Das Elektrospray-<br />
Ionisierungsverfahren wurde <strong>von</strong> John B. Fenn et al. entwickelt und 1989 publiziert [Fenn89].<br />
Er wurde 2002 dafür mit dem Nobelpreis für Chemie ausgezeichnet. Beim ESI-Verfahren<br />
(vgl. Abb. 2.1.2) wird die Lösung, welche die Analyten enthält, durch eine dünne Kapillare<br />
versprüht. Die zwischen der Kapillarspitze und der Gegenelektrode anliegende Potentialdifferenz<br />
<strong>von</strong> bis zu einigen kV bewirkt, dass die versprühten Tröpfchen beim Austritt aus der Kapillare<br />
geladen werden. Durch die nun folgende Evaporation der Tröpfchen, verringert sich<br />
das Volumen und die Ladungsdichte steigt. Sobald die Coulomb-Abstoßung der Ladungen eine<br />
größere Kraft ausübt als die Oberflächenspannung des Tröpfchens, zerfällt es in noch kleinere<br />
Tröpfchen. Dieser kritische Punkt wird auch als Rayleigh-Limit bezeichnet. Der Verlauf<br />
wiederholt sich so lange, bis nur noch die Analyt-Ionen bzw. die hoch solvatisierten Analyt-<br />
Ionen übrig bleiben. Ein Teil der Ionen gelangt durch einen Spalt in der Gegenelektrode zum<br />
Analysator, in dem sie nach dem Verhältnis <strong>von</strong> Masse zu Ladung (m/z) getrennt werden. Ob<br />
die Ionen negativ oder positiv geladen werden, hängt <strong>von</strong> ihren chemischen Eigenschaften und<br />
der Polarität der anliegenden Potentialdifferenz ab.<br />
18<br />
Abb. 2.1.1: Schematischer<br />
Aufbau eines Massenspektrometers.<br />
Nach<br />
[Gross04 S.4]<br />
Abb. 2.1.2: Die Tröpfchen werden<br />
beim Austritt aus der Kapillare aufgrund<br />
der hohen Potentialdifferenz<br />
elektrisch geladen. Anschließend<br />
findet eine Coulomb-Explosion der<br />
Tröpfchen statt, so dass sie immer<br />
kleiner werden, bis nur noch die<br />
Analyt-Ionen in der Gasphase übrig<br />
bleiben. Ein Teil der so gebildeten<br />
Ionen gelangen durch einen Spalt in<br />
der Gegenelektrode zum Analysator.<br />
Nach [Lehmann96 S.100]
Die Frequenz, mit der sich bestimmte Ladungszustände bilden, folgt einer statistischen Verteilung.<br />
Die Form der Ladungsverteilung wird durch die Masse und die Konformation des Moleküls<br />
bedingt. Hierbei sei erwähnt, dass jeder Ladungszustand eines Moleküls zwischen minimalem<br />
und maximalem Ladungszustand besetzt wird, d.h. es gibt keine Lücken in der Ladungsverteilung<br />
(vgl. dazu Abb. 2.3.5). [Lehmann96, Samalikova03]<br />
Eine besondere Eigenschaft <strong>von</strong> ESI ist, dass es ein schonendes Verfahren ist, d.h. es kommt<br />
nur geringfügig zur Fragmentierung der Analyten, was eine exakte Molekulargewichtsbestimmung<br />
ermöglicht. Als zweites Merkmal ist die Detektion großer Massen hervorzuheben<br />
(bis 250 kD). Dies wird durch den Umstand ermöglicht, dass hoch geladene (bzw. mehrfach<br />
geladene) Molekülionen, d.h. hohe z-Werte, bei entsprechend niedrigen m/z-Werten im<br />
Spektrum abgebildet werden.<br />
Diese zwei Merkmale sind bei anderen populären Ionisierungsverfahren wie etwa „Matrix-<br />
Assisted Laser Desorption/Ionization“ (MALDI) oder „Fast Atom Bombardment“ (FAB) nicht<br />
anzutreffen. Bei MALDI wird ein gepulster Laser zur Ionisierung der auf einer Metalloberfläche<br />
angebrachten Analyten verwendet. Im Gegensatz zu ESI entstehen hierbei meistens nur<br />
einfach geladene Ionen, ganz selten auch zweifach geladene. Des Weiteren ist bauartbedingt<br />
die Probe nur schwer vor den zerstörenden Eigenschaften des Lasers zu schützen, und es<br />
kommt dadurch eher zur Fragmentierung der Analyten. [Lehmann96]<br />
Bei FAB werden die Analyten in einer organischen Matrix (i.d.R. bestehend aus Glycerol und<br />
3-nitrobenzyl Alkohol) gelöst, so dass diese als Ionen vorliegen. Die Matrix wird anschließend<br />
mit einem Primärionenstrahl <strong>von</strong> etwa 10-15keV kinetischer Energie beschossen. Aufgrund<br />
der erzeugten Stoßkaskade werden die Analyt-Ionen in die Gasphase überführt. Die Art<br />
der erzeugten Spektren hängt stark vom verwendeten Lösungsmittel und <strong>von</strong> der Zusammensetzung<br />
der Matrix ab. FAB ist wie auch MALDI kein wirklich schonendes Verfahren. Bei<br />
Massen mit einem Molekulargewicht ab einigen kD kommt es außerdem zur Fragmentierung<br />
der Analyten. Somit eignet es sich nicht für die Untersuchung großer Glykoproteine. [Budzikiewicz92]<br />
Die Spektren, welche in dieser Arbeit betrachtet werden, stammen alle <strong>von</strong> einem Quadrupol-<br />
Flugzeit-Analysator. Ein Quadrupol besteht aus vier Metallstäben, welche parallel angeordnet<br />
sind. Die Ionen, welche durch das Quadrupol fliegen, können durch Anlegen geeigneter Spannungen<br />
an den Metallstäben gefiltert werden. Man kann somit bestimmen, welcher Massenbereich<br />
durchgelassen wird. Anschließend treten die Ionen in ein Flugrohr ein, in dem sie durch<br />
gepulstes Anlegen <strong>von</strong> Hochspannung auf das gleiche kinetische Energieniveau gehoben werden.<br />
Dadurch erreichen leichte Ionen vor den schweren Ionen den Detektor am Ende des Flugrohrs.<br />
Um die Flugzeit messen zu können, werden die Ionen gepulst, d.h. sie werden paketweise<br />
zum Detektor geschickt. Aus den Flugzeiten können die m/z-Werte berechnet werden<br />
und man erhält das m/z-Spektrum. [Budzikiewicz92, Gross04]<br />
19
2.2. Glykoproteine<br />
Hierbei handelt es sich um eine Gruppe komplexer Makromoleküle, welche in nahezu allen<br />
Lebensformen vorkommen. Den größten Anteil daran haben posttranslational modifizierte<br />
Membranproteine sowie <strong>Protein</strong>e, welche in der extrazellulären Matrix vorkommen. Diese<br />
üben einen großen Einfluss auf die Funktion und Entwicklung <strong>von</strong> Zellen aus. Besonders<br />
wichtige Vertreter der Glykoproteine lassen sich in der Immunabwehr <strong>von</strong> Säugetieren finden,<br />
nämlich Immunglobuline und Immunglobulin-Rezeptoren.<br />
Glykoproteine bestehen aus dem kovalenten Zusammenschluss eines <strong>Protein</strong>s und mehrerer<br />
Kohlenhydrate (vgl. Abb. 2.2.1). Die Bindungstypen lassen sich aufteilen in N-glykosidische<br />
und O-glykosidische Bindungen. Bei der ersten Klasse erfolgt die Bindung an die Aminogruppe<br />
<strong>von</strong> Asparagin, bei der zweiten an die Hydroxygruppe <strong>von</strong> Threonin oder Serin. Oligosaccharid-Seitenketten<br />
<strong>von</strong> Membran-Glykoproteinen sind nur aus den folgenden 9 Monosaccharid<br />
Grundbausteinen zusammengesetzt, obwohl weit mehr Monosaccharide existieren:<br />
Glukose (Glc), Galaktose (Gal), Mannose (Man), Fucose (Fuc), Arabinose (Ara), Xylose<br />
(Xyl), N-Acetyl-D-Glukosamin (GlcNAc), N-Acetyl-D-Galaktosamin (GalNAc) und Sialinsäure<br />
(NANA). [Klein91]<br />
Antikörper bestehen aus zwei identischen Kettenpaaren, mit je einer leichten Kette (ca. 25kD)<br />
und einer schweren Kette (50kD bis 80kD). Die schwere und die leichte Kette sind durch eine<br />
Disulfidbrücke verbunden. Die zwei schweren Ketten sind in der Gelenkregion durch zwei<br />
Disulfidbrücken miteinander verbunden (vgl. Abb. 2.2.3 a). Charakteristisch für die Antikörper<br />
ist, dass sie über einen konstanten Bereich (CL und CH) und einen variablen Bereich (VL<br />
und VH) verfügen. Der konstante Bereich ist allen Antikörpern gemeinsam, der variable Bereich<br />
– die Antigenbindestelle – zeichnet sich durch eine hohe Heterogenität innerhalb der<br />
Antikörperpopulationen aus. Diese Teile haben zwei wesentliche Aufgaben:<br />
(1) Antigen-Bindung: Moleküle des Antigens (z.B. Pathogene) werden gebunden, wodurch<br />
eine Immunantwort ausgelöst wird.<br />
(2) Wechselwirkung mit Effektoren: Andere Zellen und Moleküle, welche das Antigen<br />
zerstören, werden mobilisiert.<br />
20<br />
Abb. 2.2.1: Zwei Klassen <strong>von</strong><br />
Oligosaccharid-Bindungen an<br />
<strong>Protein</strong>en. Die Bindungsstelle<br />
zwischen Zucker und <strong>Protein</strong><br />
ist durch einen Kreis symbolisiert.<br />
Links sieht man eine<br />
N-glykosidische Bindung und<br />
rechts eine O-glykosidische.<br />
Nach [Klein91 S.139]
Die Immunglobuline lassen sich in fünf Klassen unterteilen, wobei jede Klasse eine eigene<br />
physiologische Aufgabe besitzt: IgM, IgD, IgG, IgA und IgE. IgM befindet sich im Blut und<br />
ist der erste Antikörper, welcher sofort nach Kontakt mit einem Antigen sezerniert wird. Seine<br />
Spezialisierung ist das Binden <strong>von</strong> ins Blut eingedrungenen Mikroorganismen. Die häufigste<br />
Immunglobulin-Klasse (und die interessanteste für die Pharmaforschung) ist IgG, welche im<br />
Blut und interstitieller Flüssigkeit vorkommt. IgG wird in einer verzögerten Phase nach dem<br />
Auftreten <strong>von</strong> IgM gebildet. Von entscheidender Bedeutung ist IgG für die Immunität des Fetus,<br />
da IgG als einziges Immunglobulin die Plazenta-Barriere überwinden kann. IgA kommt<br />
hauptsächlich im Verdauungsapparat, Speichel, Schweiß und in Tränen vor. Seine Funktion<br />
besteht darin, Erregern die Anlagerung an das Epithel unmöglich zu machen. IgE ist für alle<br />
allergischen Reaktionen verantwortlich, außerdem schützt es vor Parasiten wie z.B. Würmern.<br />
Im Blut kommt es nur in sehr geringen Mengen vor. Ebenfalls im Blut und nur in geringen<br />
Mengen vorhanden ist IgD, dessen Funktion vergleichsweise unbekannt ist. [Voet&Voet92,<br />
Stryer02]<br />
Abb. 2.2.2: Zuckermodifikationen. Links befinden sich<br />
Beispiele für den komplexen Typ, rechts für den Mannose-reichen<br />
Typ. Unten ist eine O-glykosidische Bindung<br />
dargestellt. Bei den komplexen Typen kann man<br />
sehr schön die Kernregion sehen, welche allen Varianten<br />
zugrunde liegt: β – β1,4 – β1,4 – α1,6 – α1,3. Die<br />
N-verknüpfte komplexe Oligosaccharid-Struktur oben<br />
in der Mitte ist die größte Struktur, die je im menschlichen<br />
IgG gefunden wurde [Raju03].<br />
Nach [Klein91 S.140]<br />
Von IgG gibt es vier verschiedene Isotypen (IgG1, IgG2, IgG3, IgG4), die sich in der Anzahl<br />
interner Disulfidbindungen und in ihrer Effektor-Funktionalität unterscheiden, obwohl die Isotypen<br />
eine Sequenzhomologie <strong>von</strong> über 95 % aufweisen [Jefferis05]. IgGs tragen häufig Zu-<br />
21
ckermodifikationen, welche großen Einfluss auf ihre Funktion haben [Raju03]. Die <strong>von</strong> den<br />
Immunglobulinen O-glykosidisch gebundenen Kohlenhydrate sind variabel in ihrer Struktur,<br />
aber sehr klein (750D). Die N-glykosidisch gebundenen Oligosaccharide hingegen sind wesentlich<br />
größer (ca. 2700D) und können bis zu 15 verschiedene Monosaccharide enthalten.<br />
Bei letzterem unterscheidet man zwei Arten: Mannose-reich und komplex [Klein91].<br />
Ein bestimmtes Glykoprotein kann in verschiedenen Varianten auftreten, die sich in ein oder<br />
mehr Strukturmerkmalen der Glykosylierung unterscheiden [IUPAC]. Man bezeichnet diesen<br />
Sachverhalt als Mikroheterogenität. IgGs verfügen häufig über eine ausgeprägte Mikroheterogenität,<br />
d.h. die N-verknüpften Oligosaccharide sind sehr heterogen. Die Heterogenität<br />
herrscht nicht nur innerhalb einer Zelle, sondern auch über mehrere Zellen hinweg. Die Ursache<br />
liegt in der Variation des Expressionssystems, d.h. die Anzahl gebundener Zuckermoleküle<br />
variiert. Die Mikroheterogenität hat besonders starke Auswirkungen auf die industrielle<br />
Produktion <strong>von</strong> Antikörpern, da kleinste Variationen in der Herstellung zu unterschiedlichen<br />
Glykosylierungen rekombinanter IgGs führen. Problematisch wird dies durch die Tatsache,<br />
dass kleinste Veränderungen in der Glykosylierung die therapeutische Aktivität stark beeinflussen<br />
können [Raju03, Jefferis05]. Deswegen stellt sich bei der <strong>Analyse</strong> <strong>von</strong> Antikörper-<br />
<strong>Massenspektren</strong> häufig die Frage, welche Art und welche Mengen einzelner Spezies vorhanden<br />
sind.<br />
Antikörper verfügen in der Gelenkregion (Hinge) über eine konservierte Glykosylierungsstelle.<br />
Daneben besitzen die leichte und die schwere Kette in dem variablen Bereich noch einige<br />
nicht konservierte Glykosylierungsstellen. Je mehr solcher Stellen besetzt sind, desto mehr<br />
Glykosylierungskombinationen sind möglich. Um unerwünschte Nebenwirkungen bei der<br />
Therapie mit Antikörpern zu vermeiden, ist es wichtig, dass die Anzahl anormaler Glykosylierungen<br />
minimiert wird. Von den Gesundheitsbehörden gibt es strenge Grenzen, in denen das<br />
Glykosylierungsprofil liegen muss. In Folge dessen hat man vorzugsweise einfache Antikörper,<br />
die nur über eine Glykosylierungsstelle verfügen. [Jefferis05]<br />
Um die <strong>Analyse</strong> der Spektren zu vereinfachen, werden die Antikörper reduziert, so dass<br />
schwere und leichte Kette massengetrennt sind. Der Nutzen ist dabei, dass die leichte Kette,<br />
22<br />
a) b)<br />
Abb. 2.2.3:<br />
a) Schematischer<br />
Aufbau eines IgG<br />
Antikörpers<br />
b) Beispiel für ein<br />
an IgG gebundenes<br />
Oligosaccharid<br />
vom komplexen<br />
Typ. Der Kernbereich<br />
ist blau hinterlegt.<br />
Nach [EncyclVol2]
welche meistens über keine Glykosylierungen verfügt, als Referenzmasse verwendet werden<br />
kann. Überdies lassen sich die Glykosylierungsvarianten der schweren bzw. leichten Kette<br />
leichter bestimmen, da Variationen der jeweils anderen Kette nicht berücksichtigt werden<br />
müssen.<br />
Im Folgenden wird kurz erläutert, wie Antikörper für die medizinische Therapeutik hergestellt<br />
werden können.<br />
Bei der aktiven Immunisierung gegen ein Antigen werden eine Vielzahl an Antikörpern gebildet<br />
– so genannte polyklonale Antikörper –, welche das Antigen binden. Polyklonal heißt,<br />
dass die Antikörper sich nicht nur in den Glykosylierungen unterscheiden, sondern auch in der<br />
Aminosäuresequenz. Folglich sezerniert jeder B-Lymphozyt einen anderen Antikörper, es<br />
herrscht also eine große Heterogenität. Für die Medizin ist es jedoch <strong>von</strong> besonderem Interesse,<br />
monoklonale Antikörper in großen Mengen herzustellen, die ein bestimmtes Antigen binden.<br />
Monoklonale Antikörper besitzen die gleiche Aminosäuresequenz, unterscheiden sich jedoch<br />
an den Glykosylierungsstellen (Mikroheterogenität). Die Herstellung monoklonaler Antikörper<br />
ist nicht unproblematisch. Zum einen muss ein Lymphozyt gefunden werden, welcher<br />
Antikörper gegen das zu bindende Antigen produziert und zum anderen muss der Lymphozyt<br />
auch in vitro lebensfähig sein.<br />
Ein möglicher Lösungsweg ist folgender: Um Antikörper gegen ein Antigen X zu erhalten, injiziert<br />
man in die Milz einer Maus eine bestimmte Dosis des Antigen X. Nach erfolgreicher<br />
aktiver Immunisierung haben sich spezifische B-Lymphozyten gegen das injizierte Antigen<br />
gebildet. Im nächsten Schritt werden die Milzzellen und somit auch die aktivierten Lymphozyten<br />
der Maus entnommen. Es bleibt noch das Problem bestehen, dass normale B-<br />
Lymphozyten in vitro nicht lebensfähig sind. Krebsartige Zellen hingegen lassen sich in vitro<br />
vermehren, weil sie mit nur sehr wenigen Wachstumsfaktoren auskommen. Deswegen hybridisiert<br />
man die entnommenen B-Zellen mit krebsartigen Lymphozyten, den Myelomzellen,<br />
welche nur monoklonale Antikörper sezernieren. Die so entstehenden Klone (Hybridome)<br />
sind in vitro lebensfähig und können nun auf einem geeigneten Medium gezüchtet werden.<br />
Die <strong>von</strong> den Hybridomen sezernierten Antikörper werden anschließend in einem Screening-<br />
Verfahren auf ihre Funktionalität hin überprüft. Es findet also eine Klonauswahl bzw. Antikörperauswahl<br />
statt. In der Therapeutik hat man hierbei Interesse, möglichst effektive Antikörper<br />
zu finden, d.h. hohe Affinität für das zu bindende Antigen, geringe Mikroheterogenität<br />
und keine Wechselwirkung mit anderen Stoffen. Nach Auswahl geeigneter Antikörper müssen<br />
diese noch „humanisiert“ werden, da sonst im Menschen eine Immunantwort gegen die Mausantikörper<br />
stattfinden würde. Die Humanisierung eines Antikörpers beinhaltet den Austausch<br />
der konstanten Bereiche gegen humane Sequenzen. [Voet&Voet92]<br />
Ursprünglich wurden Antikörper in der Medizin v. a. zur passiven Impfung gegen Pathogene<br />
eingesetzt. Mittlerweile hat auch die Tumortherapie mit Antikörpern eine immer größer wer-<br />
23
dende Bedeutung erreicht. Aktuelles Beispiel ist Herceptin, welches gegen Brustkrebs erfolgreich<br />
eingesetzt wird [ÄrzteZeitung, Stern].<br />
2.3. ESI-MS-Spektren <strong>von</strong> Glykoproteinen<br />
Im Folgenden werden einige wichtige Eigenschaften <strong>von</strong> ESI-MS-Spektren erläutert. In Abb.<br />
2.3.1 ist ein Spektrum eines Antikörpers abgebildet, welches sieben IgG-Spezies enthält. Bei<br />
allen Spezies ist die leichte Kette identisch. Demzufolge fallen die Massen aller leichten Ketten<br />
im Spektrum zusammen, so dass sie als intensive Peaks zum Vorschein treten (in Abb.<br />
2.3.1 als A13 bis A19 gekennzeichnet). Die Spezies unterscheiden sich durch die Zuckermodifikationen<br />
an der schweren Kette, welche sich bei der Gelenkregion (vgl. Abb. 2.2.3 a) befinden.<br />
In Kap. 2.1 wurde erwähnt, dass ein Analyt während der Ionisierung mehrere Ladungszustände<br />
annimmt. Im Spektrum äußert sich dies darin, dass es für den Analyten nicht nur einen<br />
Peak gibt, sondern einen für jeden Ladungszustand. Zur Illustration dient die Spezies E (vgl.<br />
Abb. 2.3.1) mit der Masse m=50373D. Ein Blick auf das Spektrum zeigt, dass dieses Molekül<br />
Ladungszustände zwischen 26 und 56 einnimmt. Die Peakposition im Spektrum lässt sich mit<br />
Hilfe der Molekülmasse und des Ladungszustandes berechnen. Beispielhaft wird der m/z-Wert<br />
für den Ladungszustand z=37 berechnet:<br />
24<br />
Abb. 2.3.1: Spektrum eines reduzierten IgG-Antikörpers. Die Beschriftung über den Peaks repräsentiert jeweils<br />
einen Peak aus einer Serie. Dabei stehen die Buchstaben für die Masse (vgl. Legende) und die Zahlen für den Ladungszustand.<br />
Auf der y-Achse ist die normierte Intensität aufgetragen. Hinweis: Aus Platzgründen wurden nicht<br />
alle Peaks einer Serie beschriftet.<br />
m + zH 50373D<br />
+ 37 ⋅1,<br />
008D<br />
m / z = =<br />
= 1362,<br />
44D<br />
(2.3.1)<br />
z<br />
37
Analog lässt sich auf diese Weise für jeden Ladungszustand einer Masse die genaue Position<br />
im Spektrum bestimmen. Die Gesamtheit aller Peaks die zu einer Masse gehören bezeichnet<br />
man als Peakserie.<br />
Wenn man mit <strong>Massenspektren</strong> arbeitet, ist es wichtig, sich über einige grundlegende Dinge<br />
klar zu werden [Gross04]:<br />
• Ein Massenspektrometer trennt nach dem Verhältnis Masse zu Ladung (m/z).<br />
• Ein Peak im Spektrum setzt sich aus der Durchschnittsmasse (der häufigsten Isotopenkombination)<br />
und allen anderen möglichen Isotopenkombinationen des Moleküls<br />
zusammen.<br />
• Die Peakbreite wird durch die Isotopen bestimmt. Außerdem verursachen Geräteparameter<br />
wie Auflösung und Gerätetyp eine zusätzliche Verbreiterung.<br />
Tabelle 2.3.1: Liste der Isotopenhäufigkeit<br />
einiger für die Massenspektrometrie<br />
relevanten Elemente.<br />
[Gross99]<br />
25
Die Masse eines Atoms berechnet sich aus der Summe der Neutronen und Protonen. Isotopen<br />
sind Atome gleicher Protonenzahl, aber unterschiedlicher Neutronenzahl und dadurch auch<br />
unterschiedlicher Massenzahl.<br />
Als monoisotopisch bezeichnet man Elemente, welche nur ein stabiles Isotop haben, z.B. Natrium,<br />
das nur als 23 Na stabil ist. Polyisotopisch werden diejenigen Elemente genannt, welche<br />
mehrere stabile Isotope aufweisen. Die Isotope eines Elements kommen mit einer gewissen<br />
Wahrscheinlichkeit in der Natur vor (vgl. Tabelle 2.3.1). Brom zum Beispiel kommt als 79 Br<br />
(relative Häufigkeit 50,69 %) und 81 Br (relative Häufigkeit 49,31 %) vor. Für Br2 ergibt sich<br />
eine durchschnittliche Masse <strong>von</strong> 159,8g/mol wenn man die im Periodensystem angegebenen<br />
relativen Atommassen zur Berechnung heranzieht. Betrachtet man nun das Spektrum, so sieht<br />
man folgende Signale:<br />
26<br />
[ 79 Br2] + bei m/z 158<br />
[ 79 Br 81 Br] + und [ 81 Br 79 Br] + bei m/z 160<br />
[ 81 Br2] + bei m/z 162<br />
Für m/z=159,8 gibt es aber kein Signal [Budzikiewicz92]. Die Isotopenverteilung hat zur Folge,<br />
dass man in einem Massenspektrum für ein Molekül nicht einen Strich beobachtet, sondern<br />
mehrere, welche zusammen die Peakform determinieren. Zur Illustration wird die B-<br />
Kette <strong>von</strong> Rinderinsulin herangezogen. In Abb. 2.3.2 a) ist die theoretische Isotopenverteilung<br />
der B-Kette dargestellt. Zusätzlich ist in Abb. 2.3.2 b) das gemessene Spektrum einer Probe,<br />
welche die B-Kette enthält, dargestellt. Hier findet man im intensivsten Peak die berechnete<br />
Isotopenverteilung wieder. Daneben weißt die empirische Messung noch weitere Peaks auf,<br />
welche wahrscheinlich <strong>von</strong> anderen in der Probe vorhandenen Massen stammen.<br />
Abb. 2.3.2: Dargestellt ist die B-Kette <strong>von</strong> Rinderinsulin (C157H233N40O41S2)<br />
(a) Berechnetes Isotopenmuster<br />
(b) Gemessenes Spektrum<br />
[Budzikiewicz92 S.62]<br />
Die Peakbreite wird neben der Isotopenverteilung noch durch das ESI-MS-Gerät beeinflusst,<br />
d.h. die Massen, welche im Spektrum noch getrennt abgebildet werden können, hängen entscheidend<br />
<strong>von</strong> der Auflösung R des Geräts ab:
m<br />
R = (2.3.2)<br />
∆m<br />
Dabei ist m die Masse, die interessiert, und �m der Massenunterschied, der aufgelöst werden<br />
soll. Die Auflösung gibt an, wann zwei Massen sichtbar getrennt werden können (vgl. Abb.<br />
2.3.3). Dafür gibt es zwei verschiedene Definitionen, wobei sich beide auf die relative Peakhöhe<br />
stützen: zwei Massen sind getrennt, wenn das Tal zwischen beiden Peaks kleiner gleich<br />
10% der Signalhöhe ist. Seit der Einführung der Quadrupol-Massenanalysatoren wird immer<br />
häufiger die Halbwertsbreite (FWHM; Breite des Peaks bei 50% Höhe) als Maß genommen.<br />
Der Grund liegt zum einen an der schlechteren Auflösung des Geräts (10% wäre somit eine zu<br />
starke Grenze) und zum anderen an der starken Verbreitung dieser Geräte. Demnach sind zwei<br />
Peaks getrennt, wenn sie mindestens den FWHM-Wert des Detektors <strong>von</strong>einander entfernt<br />
sind (Rayleigh’sche Auflösungsgrenze). Letztere Definition der Auflösung wird auch in dieser<br />
Arbeit verwendet. [Gross04, Budzikiewicz92]<br />
Abb. 2.3.3: Geräte-Auflösung<br />
Oben: Definition der Auflösung bei 10% und 50% Talgrenze.<br />
[Gross04 S.96]<br />
Rechts: Theoretische Peakform der B-Kette <strong>von</strong> Rinderinsulin<br />
bei verschiedenen Auflösungen. Auf der x-Achse<br />
sind die m/z-Werte aufgetragen. Oben R=1000, Mitte<br />
R=5000 und unten R=10000. Man sieht wie mit steigender<br />
Auflösung die Peaks immer besser getrennt werden.<br />
Als Addukte bezeichnet man Massen, die durch Zusammenlagerung <strong>von</strong> im Lösungsmittel befindlichen<br />
Ionen mit dem Analyten entstehen. Bei Verwendung einer salzhaltigen Lösung entstehen<br />
Alkali-Addukte, d.h. es lagern sich n-fach viele Na + und K + an die Moleküle an. Ob<br />
und wie viele Ionen sich anlagern, hängt zum einen <strong>von</strong> der Struktur des Analyten ab und zum<br />
anderen <strong>von</strong> dem Gehalt an Salzen in der Lösung. Abhängig <strong>von</strong> der Masse des Moleküls und<br />
der Geräteauflösung kann man die Adduktsignale im Spektrum als eigenständige Peaks erkennen<br />
oder sie sind nur als Verbreiterung des Peaksockels angedeutet. Ein Beispiel für Adduktsignale<br />
kann man Abb. 2.3.4 entnehmen. Als weitere Folgen der Adduktbildung können<br />
Signale anderer Massen durch Adduktsignale überlagert werden, was eine Quantifizierung erschwert.<br />
27
Als Basislinie bezeichnet man denjenigen Signalanteil im Spektrum, welcher vom Gerät verursacht<br />
wird. Die Höhe der Basislinie hängt stark <strong>von</strong> den gewählten Geräteparametern ab. Im<br />
Falle <strong>von</strong> ESI-Spektren sind häufig schwache Addukt-Signale auch Mitverursacher der Basislinie.<br />
Von jeder gemessenen Masse können sich n-fach geladene Addukt-Varianten bilden.<br />
Hierbei treten v.a. die höher geladenen Varianten gar nicht mehr als echte Peaks in Erscheinung,<br />
weil sie aufgrund ihrer geringen Intensität im Spektrum untergehen. Vielmehr tragen all<br />
diese schwach intensiven Addukte in der Summe zu einer Erhebung der Basislinie bei (vgl.<br />
Abb. 2.3.5). Vor der quantitativen <strong>Analyse</strong> sollte die Basislinie – sofern vorhanden – durch<br />
ein geeignetes Verfahren erkannt und anschließend vom Spektrum abgezogen werden. Dadurch<br />
wird verhindert, dass die Intensitäten des gemessenen Spektrums ein falsches Verhältnis<br />
widerspiegeln.<br />
28<br />
Abb. 2.3.4: Gezeigt ist der Ausschnitt aus einem ESI-MS-Spektrum <strong>von</strong><br />
IgG. Der Antikörper wurde vor der Messung reduziert. Dargestellt sind die<br />
leichten Ketten sowie drei Addukt-Modifikationen da<strong>von</strong>. m ist die Molekularmasse<br />
in D und z ist der Ladungszustand. Bei der schweren Kette<br />
sind die Adduktsignale in der Regel nicht mehr aufgelöst, weil die Signale<br />
zu nahe beieinander liegen und deswegen überlappen. Stattdessen sieht<br />
man eine Verbreiterung des Peaksockels.<br />
Abb. 2.3.5:<br />
Oben: ESI-Spektrum eines Antikörpers. Die Basislinie<br />
ist durch einen schwarzen Strich dargestellt. Die<br />
Hüllkurve der leichen Kette ist durch schwarze Kreuze<br />
angedeutet. Es handelt sich hierbei um eine bimodale<br />
Verteilung.<br />
Unten: Vergrößerter Ausschnitt des linken Teils des<br />
oben abgebildeten Spektrums.
Die Hüllkurve repräsentiert die Ladungsverteilung eines Analyten. Man kann sie in einem<br />
Spektrum sehen, indem man eine gedachte Kurve durch alle Maxima einer Peakserie legt (vgl.<br />
Abb. 2.3.5). Die Entstehung der Hüllkurve hat ihren Ursprung im Ionisierungsprozess (vgl.<br />
Kap. 2.1). Hierbei können die Analyten abhängig <strong>von</strong> ihrer 3D-Struktur mehr oder weniger<br />
stark ionisiert werden. Deren Fähigkeit, Ladungsträger aufzunehmen, folgt einer statistischen<br />
Verteilung. Der Mittelpunkt der Verteilung entspricht dem Optimum an Ladungsträgern, die<br />
ein Molekül aufnehmen kann. Anschaulich heißt dies, dass im Spektrum der intensivste Peak<br />
einer Serie dem Optimum entspricht. Vom Optimum abweichende Ladungszahlen weisen im<br />
Spektrum eine geringere Intensität auf.<br />
Die in Abb. 2.3.5 dargestellte Hüllkurve ist nicht uni-modal sondern bi-modal, wie man an<br />
den zwei lokalen Maxima der Hüllkurve erkennen kann. Dies deutet auf mehr als eine Konformation<br />
des Moleküls hin. Die Ursache für das Vorhandensein mehrerer 3D-Strukturen lässt<br />
sich im verwendeten Lösungsmittel finden. Die verwendeten Pufferlösungen sind meist so<br />
ausgelegt, dass die Analyten in ihrer Fähigkeit, Ladungen aufzunehmen, gestärkt werden. Faktoren<br />
wie Detergenzien, Chaotrope, Alkohole etc. spielen dabei eine Rolle. Der pH-Wert aber<br />
ist sicherlich der bedeutsamste <strong>von</strong> allen. Verwendet man einen sauren pH-Wert, so können<br />
die Moleküle wesentlich mehr Ladungen aufnehmen. Diese Senkung hat aber noch einen<br />
zweiten Effekt: Ein Teil der Moleküle denaturiert mehr oder weniger stark, d.h. man erhält<br />
neben der nativen Konformation noch weitere Konformationen desselben Moleküls. Jede dieser<br />
3D-Strukturen folgt bei der Ionisierung einer eigenen Ladungsverteilung und im Spektrum<br />
beobachtet man schließlich abhängig <strong>von</strong> der Zahl an verschiedenen Konformation eine uni-,<br />
bi- oder sogar tri-modale Verteilung der Hüllkurve. Dass man keine n-fach modale Verteilung<br />
beobachtet, liegt daran, dass die diversen 3D-Strukturen oft auf ähnliche Weise Ladungen<br />
aufnehmen und dadurch quasi derselben Verteilung folgen. [Dobo01, Dobo03]<br />
2.4. Bestehende Software<br />
Viele Konzepte und Algorithmen, die im Rahmen dieser Arbeit benötigt werden, stehen in<br />
Form <strong>von</strong> Bibliotheken oder fertigen Programmen dem Interessenten / Käufer zur Verfügung.<br />
Ein Hauptproblem besteht jedoch darin, dass es sich hierbei oft um Speziallösungen handelt.<br />
Somit wäre der Erwerb einer großen Zahl an Softwarelösungen notwendig, welche sich zudem<br />
schlecht miteinander verknüpfen ließen, um den erwünschten Arbeitsablauf zu gewährleisten.<br />
Im Folgenden werden einige Produkte, welche im Bereich der Massenspektrometrie anzusiedeln<br />
sind, kurz vorgestellt.<br />
Für die Berechnung der theoretischen Isotopenverteilung kann man z.B. das <strong>von</strong> Fernandez et<br />
al. entwickelte Web-Tool „Isotopica“ verwenden [Fernandez04]. Hiermit kann, ausgehend<br />
29
<strong>von</strong> einer chemischen Formel, DNA/RNA- oder Aminosäuresequenz, die Isotopenverteilung<br />
für verschiedene Ladungszustände und Auflösungen ermittelt werden. Für die visuelle Kontrolle<br />
besteht die Möglichkeit, die Rohdaten des Spektrums zu laden, um eine Überlagerung<br />
zwischen der theoretischen Isotopenverteilung und dem Spektrum durchzuführen. Eine qualitative<br />
<strong>Analyse</strong> der im Spektrum vorhandenen Massen ist nur bedingt möglich. Es besteht zwar<br />
die Möglichkeit, <strong>Protein</strong>modifikationen manuell anzugeben, jedoch fehlt eine automatische<br />
<strong>Analyse</strong>, welche die wahrscheinlichsten Modifikationen selbständig ermittelt. Ein Werkzeug<br />
für die quantitative <strong>Analyse</strong> ist nicht vorhanden.<br />
Eine professionelle und weit verbreitete Softwarelösung für Massenspektrometrie-Geräte ist<br />
„MassLynx“ der Firma Waters. Sie ermöglicht die Akquisition <strong>von</strong> Rohdaten direkt vom<br />
Massenspektrometer und bietet eine Fülle <strong>von</strong> <strong>Analyse</strong>werkzeugen an. Darunter fallen auch<br />
Methoden für eine qualitative <strong>Analyse</strong> in Form einer „Maximum-Entropie“-Entfaltung [Reinhold92]<br />
des Spektrums und Methoden für „<strong>Quantitative</strong> High-Throughput“-<strong>Analyse</strong>n. Ferner<br />
werden noch etliche Standardfunktionen wie Glättung, Basislinienkorrektur usw. angeboten.<br />
Bei der qualitativen <strong>Analyse</strong> erfährt man zwar, welche Massen im Spektrum vorhanden sind,<br />
jedoch gibt es keinen Aufschluss darüber, welche Glykovarianten den beobachteten Massen<br />
entsprechen. Eine automatische Glykosylierungsanalyse (d.h. Auflistung der den Massen entsprechenden<br />
Glykosylierungen) kann also nicht durchgeführt werden. Die als Zusatzpaket erhältliche<br />
„High-Throughput“-Quantifizierungsanwendung ist für (kleine) Peptide konzipiert.<br />
Deswegen ist dieses Paket für die Quantifizierung großer Moleküle nicht geeignet.<br />
„Grams/AI“ ist eine Plattform für die Entwicklung <strong>von</strong> Chromatographie- und Spektrometrieanwendungen.<br />
Ein Hauptunterschied zu anderen Produkten besteht darin, dass sie die Möglichkeit<br />
bietet, durch Makros erweitert zu werden. Man könnte also dafür ein Quantifizierungsmodul<br />
entwickeln. Jedoch sprechen die zu erwartenden Schwierigkeiten bei der Implementierung<br />
(viele Standardroutinen, wie etwa Fitting, müssten neu implementiert werden) und<br />
die Abhängigkeit, in die man sich dabei begeben würde, gegen eine solche Entwicklung.<br />
Eine Softwarelösung, die ihren Schwerpunkt auf die Datenanalyse setzt, ist „PeakFit“. Auch<br />
hier werden die üblichen Standardmethoden in diesem Umfeld, wie etwa Glättung oder Basislinienkorrektur<br />
usw., angeboten. Zusätzlich wird die Möglichkeit dargeboten, Peaks verschiedener<br />
Verteilungsfunktionen an das Spektrum zu fitten. Als Erweiterung da<strong>von</strong> kann man mit<br />
diversen Peakfunktionen eine Entfaltung des Spektrums durchführen. Der Hauptnachteil hierbei<br />
ist, dass dieser Prozess sehr allgemein gehalten ist. Man kann z.B. keine Massen (Signalserien)<br />
angeben, die als Basis für die Entfaltung dienen sollen. Somit bleibt es bei ESI-<br />
Spektren eher dem Zufall überlassen, ob die richtigen Serien gefunden werden oder nicht.<br />
„Massfinder I“ ist bei Roche im Rahmen einer Diplomarbeit [ELehmann05] entstanden, welches<br />
speziell für die qualitative <strong>Analyse</strong> <strong>von</strong> ESI-<strong>Massenspektren</strong> entwickelt worden ist. Ausgehend<br />
<strong>von</strong> einem Spektrum und dessen MaxEnt-Entfaltung kann mit Massfinder ermittelt<br />
30
werden, welche Massen im Spektrum vorhanden sind. Ein weiteres wichtiges Feature besteht<br />
in der Bestimmung der Glykosylierungsvarianten. So ist im Falle <strong>von</strong> Antikörpern eine Zuordnung<br />
der Glykosylierungsmodifikation zu einer im Spektrum vorhandenen Spezies möglich.<br />
Hierzu muss die Masse des nackten Antikörpers (ohne Zucker) angegeben werden. Ein<br />
genetischer Algorithmus ermittelt basierend darauf und einer gegebenen Modifikationsliste<br />
die in Frage kommenden Varianten. Eine Möglichkeit zur Quantifizierung ist nicht vorhanden.<br />
Es gibt bereits eine bestehende In-House Entwicklung für die Quantifizierung großer Moleküle.<br />
Diese führt die Quantifizierung auf der 4. Ableitung des Spektrums durch, weil hier das<br />
Hintergrundsignal <strong>von</strong> den Peaks getrennt ist. Die Messung auf der 4. Ableitung ist unproblematisch,<br />
weil die Peakintensitäten proportional zu den Intensitäten des originalen Spektrums<br />
sind. Obwohl der Rechenprozess komplett automatisiert ist, bedarf es für die Ausführung des<br />
Programms einer Parameterdatei. In dieser müssen neben anderen Kenngrößen die Massen,<br />
die freien Ladungszustände sowie der Bereich, in dem sich die Halbwertsbreiten der Peaks befinden<br />
definiert werden. Das ist auch der Hauptnachteil bei dieser Lösung, denn die Anforderung,<br />
für jedes zu quantifizierende Spektrum eine neue Parameterdatei zu erstellen, macht das<br />
Programm unflexibel.<br />
Dieser kurze Überblick zeigt, dass es Softwarelösungen auf dem Markt gibt, diese jedoch den<br />
Anforderungen (vgl. folgendes Kapitel) nicht gerecht werden:<br />
• Ein Produkt allein ist nicht ausreichend, um das gewünschte Ergebnis zu erzielen,<br />
folglich kommen Mehrkosten durch den Erwerb zusätzlicher Lizenzen und die Einarbeitungszeit<br />
zustande.<br />
• Eine befriedigende Quantifizierungslösung ist in keinem der hier vorgestellten Produkte<br />
vorhanden. Es besteht zwar eine In-House Entwicklung, diese ist jedoch nicht<br />
flexibel genug, wenn es darum geht, mit geringem Zeitaufwand verschiedene Spektren<br />
zu quantifizieren.<br />
• Die meisten käuflichen Lösungen sind für kleine Peptid-Massen entwickelt worden.<br />
Deren Spektren sind leicht zu handhaben und somit gestaltet sich auch die Quantifizierung<br />
der darin enthaltenen Massen als relativ unproblematisch.<br />
• Der Schwerpunkt der Anforderungen hier liegt in der Entwicklung einer Quantifizierungslösung<br />
für große Moleküle, nämlich Antikörper. Deren Spektren sind weitaus<br />
komplexer als die kleiner Peptidmoleküle. So muss man hier mit Rauschen, Addukt-<br />
Signalen und Überlagerungen <strong>von</strong> Peaks zurechtkommen, was eine Quantifizierung<br />
erschwert.<br />
• Eine Vereinigung <strong>von</strong> qualitativer und quantitativer <strong>Analyse</strong> großer Moleküle, welche<br />
den Arbeitsablauf beschleunigen würde, ist in keinem Produkt zu finden.<br />
All diese Punkte führen zu dem Schluss, dass es für die Lösung des Problems auf dem Markt<br />
keine ausreichend guten Produkte gibt. Somit ist eine Eigenentwicklung anzustreben, welche<br />
den Anforderungen gerecht wird.<br />
31
2.5. Anforderungen<br />
Ziel dieser Arbeit ist es, Konzepte für die Quantifizierung <strong>von</strong> ESI-MS-Spektren zu entwickeln,<br />
sowie deren Realisierung in einem Softwareprodukt umzusetzen. Der Schwerpunkt<br />
wird auf die Quantifizierung schwerer Biomoleküle wie z.B. Antikörper gelegt. Die Verarbeitung<br />
kleiner Moleküle wie z.B. Interferon soll aber auch möglich sein.<br />
Mit „Massfinder I“ wurde bereits ein Schritt in die Softwareentwicklung für ESI-MS-Geräte<br />
unternommen. Wie bereits erwähnt, deckt „Massfinder I“ die qualitative <strong>Analyse</strong> <strong>von</strong> Antikörper-<strong>Massenspektren</strong><br />
ab. Die bestehende Lösung soll um Mechanismen für eine quantitative<br />
<strong>Analyse</strong> erweitert werden, so dass ein optimaler Arbeitsablauf <strong>von</strong> der Erfassung der im<br />
Spektrum vorhandenen Spezies bis zur Bestimmung ihrer Anteile entsteht. Da die Integration<br />
<strong>von</strong> Quantifizierungslösungen tief in Massfinder verankert werden soll, war eine Einarbeitung<br />
in den bestehenden Quellcode und dessen Organisationsstruktur notwendig.<br />
Bei einem Gespräch mit den verantwortlichen Personen hat sich herauskristallisiert, dass eine<br />
Methode gewünscht wird, die einfach zu bedienen ist, robust ist und ähnlich gute Ergebnisse<br />
liefert wie die per Hand durchgeführte Quantifizierung. Robust heißt, dass das Programm<br />
auch für schlechte Spektren, die stark verrauscht sind oder Verunreinigungen enthalten, noch<br />
gute Resultate liefert. Außerdem soll der Quantifizierungsprozess soweit wie möglich automatisiert<br />
werden. Der Anwender soll demnach im Hintergrund stehen und nur an einigen wenigen<br />
Stellen helfend eingreifen. Dieses Prinzip wird im Folgenden als semiautomatische Quantifizierung<br />
bezeichnet. Neben der Entwicklung semiautomatischer Methoden besteht die Anforderung,<br />
dass mit der Weiterentwicklung <strong>von</strong> MF auch die manuelle Bestimmung der Massenverhältnisse<br />
möglich sein soll.<br />
Ein genauer Lösungsweg für die Quantifizierung wurde nicht formuliert. Vielmehr wurden die<br />
zu erwartenden Probleme dieser Aufgabenstellung kurz angesprochen: Sowohl die Basislinie<br />
als auch Adduktsignale verfälschen die Peakintensität. Folglich muss für eine korrekte Messung<br />
der Verhältnisse die Basislinie abgezogen werden sowie Adduktsignale auf geeignete Art<br />
und Weise erkannt werden. Ein weiterer Störfaktor <strong>von</strong> Spektren ist Rauschen. Normalerweise<br />
werden Aufnahmen, in denen fremde Komponenten das Spektrum stören, neu getätigt. Um<br />
dem zu begegnen, könnte man aber auch einen Filter entwickeln, welcher die Signalqualität<br />
steigert, so dass auf dem gefilterten Spektrum gearbeitet werden kann. Als letzter Punkt wurde<br />
angedeutet, dass die korrekte Bestimmung der Hüllkurve hilfreich wäre, weil dadurch eine<br />
Quantifizierung über alle Ladungszustände möglich wäre, was die Genauigkeit der Messung<br />
steigert. Demzufolge müssen Methoden für das Filtern des Spektrums, für die Erkennung <strong>von</strong><br />
32
Peak-Überlappungen und für die Bestimmung der Hüllkurve entworfen werden, um anschließend<br />
die Quantifizierung durchzuführen.<br />
Die manuelle Variante unterscheidet sich <strong>von</strong> der semiautomatischen Variante dadurch, dass<br />
hierbei der Benutzer bei allen Schritten vollständige Kontrolle über die Aktionen hat. Einzig<br />
die Berechnung der Peakhöhen und der damit verbundenen Quantitäten wird automatisiert –<br />
eine Messung der Höhe mit Lineal entfällt also.<br />
Es ist eine weitestgehend automatisierte Quantifizierungpipeline erwünscht, welche a) schneller<br />
durchführbar ist als die manuelle Variante und b) bessere oder ähnlich gute Ergebnisse liefert<br />
wie diese. Die Ergebnisse einer Messung sollen in tabellarischer Form präsentiert werden.<br />
Die Herausforderung besteht somit darin, gute Lösungswege (vgl. dazu Kap. 3.1) für die skizzierten<br />
Probleme zu entwickeln.<br />
33
3. Konzepte<br />
In diesem Kapitel werden die einzelnen Bausteine, welche in der Quantifizierung Verwendung<br />
finden, im Detail vorgestellt. Um den Zusammenhang zwischen den Grundbausteinen<br />
besser zu verstehen, wird zunächst eine Übersicht über das entworfene Gesamtkonzept gegeben.<br />
Hierbei werden die möglichen Arbeitsabläufe einer Quantifizierung gezeigt und auf mögliche<br />
Probleme wird kurz hingewiesen.<br />
3.1. Lösungswege<br />
Ausgehend <strong>von</strong> einem gemessenen Spektrum stellen sich die Fragen, welche Komponenten<br />
vorhanden sind und in welchen Verhältnissen diese zueinander stehen. Die erste Frage kann<br />
bereits mittels „Massfinder I“ beantwortet werden [ELehmann05]. Die Beantwortung der<br />
zweiten Frage, d.h. die Bestimmung der Quantitäten der im Spektrum vorhandenen Spezies,<br />
kann auf mehrere Arten erfolgen.<br />
Abb. 3.1.1: Das Flussdiagramm zeigt die möglichen<br />
Quantifizierungswege in Massfinder II.<br />
Der bevorzugte Weg ist blau markiert.<br />
Für alle Quantifizierungsvarianten (vgl. Abb. 3.1.1) kann optional eine Glättung und eine Basislinienkorrektur<br />
des Spektrums durchgeführt werden. Ersteres muss bei sehr stark verrauschten<br />
Spektren angewendet werden, da sonst die Peakintensitäten nicht richtig erkannt werden.<br />
35
Ein starkes Rauschen hat man z.B. dann, wenn man Aufnahmen <strong>von</strong> geringen Probenmengen<br />
macht. Hierbei ist eine starke Amplifizierung des Signals notwendig, was ein verstärktes Rauschen<br />
mit sich bringt. Die Basislinienkorrektur wird verwendet, um das durch das Gerät verursachte<br />
Signal sowie unerwünschte schwache Addukt-Signale herauszufiltern.<br />
Nach diesen zwei optionalen Schritten findet eine Peakauswahl statt, d.h. es wird angegeben,<br />
welche Peaks jeder Serie für die Quantifizierung verwendet werden sollen. Für diesen Auswahlprozess<br />
werden drei Möglichkeiten geboten:<br />
1) Manuell: Der erfahrene Anwender wählt die Peaks per Hand aus.<br />
2) Schnittmenge: Für jede zu quantifizierende Spezies wird der minimal und der maximal<br />
mögliche Ladungszustand ermittelt. Es wird die Schnittmenge gebildet, so<br />
dass man das größte Minimum und das kleinste Maximum erhält. Für jede Spezies<br />
werden die entsprechenden Ladungszustände in diesem Bereich selektiert.<br />
3) Schnittmenge & nicht überlappend: Analog zu 2) und zusätzlich gilt, dass die ausgewählten<br />
Peaks nicht mit Peaks anderer Massen überlappen dürfen.<br />
4) Alle: Es werden <strong>von</strong> jeder Spezies alle Ladungszustände ausgewählt.<br />
Der Sinn hinter Variante 2) ist folgender: Man nimmt an, dass verschiedene Spezies eines Basismoleküls<br />
eine ähnliche Ladungsverteilung haben, d.h. die Hüllkurve ist ähnlich. Sofern<br />
man jetzt nicht über alle Peaks, sondern nur über eine Teilmenge der im Spektrum vorhandenen<br />
Peaks quantifiziert, sollten <strong>von</strong> allen beteiligten Spezies nur homologe Ladungszustände z<br />
betrachtet werden.<br />
Um dies zu verdeutlichen hier ein Beispiel: Angenommen, die Hüllkurve I(z) (Intensität I gegen<br />
Ladungszustand z) <strong>von</strong> Spezies A und Spezies B sei Gauß-Verteilt, d.h. es gilt<br />
I(z)=GAUSS(z;Amplitude,Mittelpunkt,FWHM). Sei weiterhin angenommen, dass Spezies A<br />
und Spezies B sehr ähnlich sind, d.h. wenn man die Parameter der beiden Verteilungen betrachtet,<br />
unterscheiden sie sich nur in der Amplitude:<br />
36<br />
Spezies A Spezies B<br />
Amplitude 800 1000<br />
Mittelpunkt 30 30<br />
FWHM 10 10<br />
Für eine Quantifizierung <strong>von</strong> Spezies A und Spezies B im Sinne <strong>von</strong> Variante 2) wählt man<br />
gleiche Ladungszustände aus und berechnet daraus das Verhältnis. Exemplarisch wird z=40<br />
gewählt, damit erhält man für die Intensität an dieser Stelle ISpeziesA(40;800,30,10)=50,0 und<br />
ISpeziesB(40;1000,30,10)=62,5, was einem Verhältnis <strong>von</strong> 44,44 % (Spezies A) zu 55,56 %<br />
(Spezies B) entspricht. Dieses Ergebnis entspricht überaus gut dem Verhältnis der Flächen<br />
beider Verteilungen. Würde man aber für Spezies B z=30 anstatt z=40 wählen, so erhält man<br />
ISpeziesB(30;1000,30,10)=1000, was ein Verhältnis <strong>von</strong> 4,76 % zu 95,24 % bedeuten würde –<br />
ein falsches Ergebnis. Man muss also gleiche z-Werte gegenüberstellen, um ein korrektes Ergebnis<br />
zu erhalten. Diese Annahme gilt natürlich nur dann, wenn verschiedene Varianten ei-
nes Basismoleküls betrachtet werden, d.h. ähnliche Moleküle. Falls gänzlich unterschiedliche<br />
Moleküle betrachtet werden, sollte man über alle Peaks quantifizieren, da hier die Hüllkurven<br />
u.U. völlig anders verteilen und sich somit in mehr Parametern als nur der Amplitude unterscheiden.<br />
Bei Variante 3) wird versucht, zusätzliche Störquellen auszuschließen, indem nur diejenigen<br />
Peaks betrachtet werden, die nicht mit anderen Peaks überlappen. Um Überlappungen zu erkennen,<br />
muss jedoch die Peakform einer Masse bekannt sein. Diese wird im Wesentlichen<br />
durch die Isotopenverteilung determiniert.<br />
Die erste Variante sollte dem erfahrenen Anwender überlassen werden. Damit soll gewährleistet<br />
werden, dass auch Spezialfälle behandelt werden können. Variante 3) sollte angewendet<br />
werden, wenn die tatsächliche Hüllkurve einer Spezies nicht bekannt ist. Ist die Hüllkurve einer<br />
Serie bekannt bzw. wird sie durch geeignete Verfahren bestimmt, so sollte Variante 4) benutzt<br />
werden.<br />
Der letzte Schritt vor der Quantifizierung ist ebenfalls optional und beinhaltet die Bestimmung<br />
der tatsächlichen Hüllkurve einer Peakserie. Im Idealfall kann durch die Bestimmung<br />
der Hüllkurven aller Peakserien das komplette Spektrum erklärt werden, d.h. die Summe der<br />
simulierten Peakserien entspricht gerade der gemessenen Kurve (vgl. Abb. 3.1.2). Das Auffinden<br />
der Hüllkurve wird mit Methoden aus dem Curve-Fitting gelöst.<br />
Abb. 3.1.2: Dargestellt ist ein hypothetisches<br />
Spektrum (schwarz). Des<br />
Weiteren sind die Peakserien (rot,<br />
grün und blau) eingezeichnet, deren<br />
Summe dem beobachteten Signal<br />
entspricht.<br />
Bei einfachen Spektren, die über kaum signifikante Überlagerungen verfügen muss die Hüllkurve<br />
nicht notwendigerweise bestimmt werden. Bei komplexen Spektren, wie sie im Falle<br />
<strong>von</strong> Antikörpern auftreten, ist allerdings die Bestimmung der Hüllkurve sehr empfehlenswert,<br />
da, wie in der Validierung später gezeigt wird, diese zu einem der besten Quantifizierungsergebnisse<br />
führt.<br />
37
Nach optionaler Bestimmung der Hüllkurve kann die Fläche jeder Serie berechnet werden und<br />
die Resultate können in Relation gesetzt werden, so dass man <strong>von</strong> jeder Masse die relativen<br />
Anteile am Spektrum erhält.<br />
Für eine erfolgreiche Bestimmung der Quantitäten muss / müssen u.a.<br />
38<br />
• die Peakserien simuliert werden und zwar hinsichtlich Isotopenverteilung und ESI-<br />
MS-spezifischer Verbreiterung der Peaks,<br />
• das Spektrum – falls zu stark verrauscht – geglättet werden,<br />
• die Basislinie – sofern vorhanden – abgezogen werden,<br />
• diejenigen Peaks jeder Serie ausgewählt werden, welche zur Quantifizierung herangezogen<br />
werden sollen,<br />
• die tatsächliche Hüllkurve jeder Serie bestimmt werden.<br />
Jeder dieser Schritte ist mit Einschränkungen bzw. Schwierigkeiten verbunden. Bei der Glättung<br />
darf die Form eines Peaks nicht verändert werden, bei der Basislinienkorrektur darf nicht<br />
zuviel vom Spektrum abgezogen werden, bei der Isotopenverteilung muss die Verbreiterung<br />
der Peaks simuliert werden und bei der Entfaltung des Spektrums hat man das Problem, dass<br />
Peaks häufig durch andere überlagert sind (welcher Peak trägt zu welchem Anteil zum gemessenen<br />
Signal bei?), was eine korrekte Bestimmung der Hüllkurve erschwert.<br />
3.2. Glättung<br />
Eine Glättung des Spektrums kann optional durchgeführt werden, um das Signal-zu-Rausch-<br />
Verhältnis der y-Ordinaten zu verbessern. Falls das Spektrum wenig Rauschen besitzt, sollte<br />
auf eine Glättung verzichtet werden, da diese für die <strong>Analyse</strong> keine Vorteile bringen würde.<br />
Sind die Daten hingegen sehr stark verrauscht, so ist eine Glättung durchaus empfehlenswert<br />
(vgl. Abb. 3.2.2). Die verbesserte Signalqualität führt zu einem besseren Erkennen der Peaks<br />
sowie der Basislinie. Ersteres ist auch für das Fitting der Hüllkurve <strong>von</strong> Bedeutung.<br />
Eine wichtige Eigenschaft, welche die Glättung erfüllen muss, ist, dass die Peaks nicht verschoben<br />
oder verformt werden. Ist diese Bedingung nicht erfüllt, können Fehler bei der Quantifizierung<br />
die Folge sein.<br />
Die elementarste Glättungsmethode ist „moving window averaging“ [NR]. Ein Fenster einer<br />
festgelegten Größe wird über die y Ordinaten geschoben, beginnend bei y0 und endend bei<br />
yLen-1, wobei Len die Anzahl der Datenpunkte ist. Für jede Position i wird der Durchschnitt der<br />
im Fenster befindlichen y Werte berechnet. Als Ergebnis erhält man für jede Stelle i den lokalen<br />
Durchschnittswert <strong>von</strong> y. Dieser Prozess lässt sich wie folgt beschreiben:
Man betrachtet um einen Datenpunkt yi nL Punkte links da<strong>von</strong> und nR Punkte rechts da<strong>von</strong>, insgesamt<br />
�=nL+nR+1 Punkte. Dies entspricht dem Fenster, welches über die Datenpunkte geschoben<br />
wird. Die Ordinaten werden mit einem Gewichtungsfaktor cn multipliziert. Bei „moving<br />
window averaging“ ist cn=1/�.<br />
= ∑<br />
= −<br />
R n<br />
i cn<br />
n nL<br />
g y<br />
(3.2.1)<br />
i+<br />
n<br />
Dieses Verfahren kann für Spektren nicht angewendet werden, obwohl es auf den ersten Blick<br />
seinen Zweck, nämlich das Rauschen zu vermindern, zu erfüllen scheint. Die Methode bringt<br />
nämlich zusätzliches unerwünschtes Rauschen ins Signal, weil sie sehr stark dazu neigt, Peaks<br />
in ihrer Intensität zu vermindern (vgl. Abb. 3.2.1).<br />
Savitzky und Golay haben 1964 einen Glättungsalgorithmus (genannt: Savitzky-Golay oder<br />
least-squares) speziell für Spektren entwickelt, welcher die Eigenschaft hat, das Rauschen zu<br />
eliminieren, ohne dabei die Intensität der Peaks zu verändern [SavGol64]. Hierbei wird die<br />
Annahme gemacht, dass die x-Ordinaten äquidistant sind und dass nur die y-Daten verrauscht<br />
sind. Die Methode <strong>von</strong> Savitzky und Golay ist bis auf die Bestimmung des Gewichtungsfaktors<br />
cn analog zum „moving window averaging“-Algorithmus. Um gute Gewichtungsfaktoren<br />
für die im Fenster befindlichen Punkte zu erhalten, wird ein Fitting eines Polynoms M-ten<br />
Grades auf die Ordinaten y i-n ,..., y<br />
L i+<br />
n durchgeführt. Das Polynom hat die Form:<br />
R<br />
k M<br />
k<br />
M<br />
f i = ∑ aki<br />
= a + a i + + aM<br />
i -nL<br />
≤ i ≤<br />
k<br />
=<br />
( )<br />
0 1 ... wobei<br />
= 0<br />
n<br />
R<br />
(3.2.2)<br />
Die Parameter a werden so gewählt, dass der quadratische Fehler χ², d.h. die Differenz zwischen<br />
berechneten und tatsächlichen Punkten, minimiert wird.<br />
2<br />
i<br />
n<br />
∑<br />
n=<br />
−n<br />
= R<br />
( f ( i + n)<br />
− y )<br />
L<br />
2<br />
i+<br />
n<br />
χ (3.2.3)<br />
Um die Parameter a zu finden, welche χ² minimieren, wird die erste Ableitung nach den Parametern<br />
gebildet. Hierbei erhält man:<br />
39
40<br />
∂<br />
0 =<br />
∂a<br />
= 2<br />
⇒<br />
⇒<br />
R<br />
∑ ⎜⎜<br />
∑<br />
i=<br />
−nL<br />
n<br />
R<br />
∑ ∑<br />
∑<br />
k=<br />
0<br />
R<br />
∑<br />
r n=<br />
−nL<br />
⎛⎛<br />
⎜<br />
⎝⎝<br />
n=<br />
−nL<br />
k=<br />
0<br />
M<br />
n<br />
a<br />
n<br />
M<br />
( f ( i + n)<br />
− y )<br />
k=<br />
M<br />
n<br />
k=<br />
0<br />
k<br />
R<br />
∑<br />
k<br />
n=<br />
−nL<br />
k ⎞<br />
ak<br />
( i + n)<br />
⎟ − y<br />
⎠<br />
a ( i + n)<br />
( i + n)<br />
k+<br />
r<br />
k+<br />
r<br />
2<br />
i+<br />
n<br />
=<br />
=<br />
R<br />
∑<br />
i+<br />
n<br />
n=<br />
−nL<br />
n<br />
n<br />
R<br />
∑<br />
∂<br />
=<br />
∂a<br />
i+<br />
n<br />
y<br />
y<br />
i+<br />
n<br />
n=<br />
−nL<br />
n<br />
R<br />
∑ ⎜⎜<br />
∑<br />
r n=<br />
−nL<br />
⎞<br />
⎟<br />
⎟(<br />
i + n)<br />
⎠<br />
( i + n)<br />
( i + n)<br />
r<br />
⎛⎛<br />
⎜<br />
⎝⎝<br />
r<br />
r<br />
k=<br />
M<br />
k=<br />
0<br />
Man bekommt also ein lineares Gleichungssystem:<br />
α<br />
k+<br />
r<br />
β =<br />
k<br />
=<br />
nR<br />
nR<br />
n=<br />
−nL<br />
∑<br />
∑<br />
n=<br />
−nL<br />
( i + n)<br />
( i + n)<br />
[ α k+<br />
r ] a = [ βk<br />
] k,<br />
r<br />
k<br />
k<br />
k+<br />
r<br />
y<br />
i<br />
k ⎞<br />
ak<br />
( i + n)<br />
⎟ − y<br />
⎠<br />
i+<br />
n<br />
⎞<br />
⎟<br />
⎠<br />
2<br />
(3.2.4)<br />
(3.2.5)<br />
Um den Parametervektor a zu bestimmen, wird das Gleichungssystem mit LU-<br />
Dekomposition, Cholesky-Dekomposition oder Gauß-Jordan-Elimination gelöst. Die Komponenten<br />
des Parametervektors a werden als Gewichtungskoeffizienten cn in Gl. (3.2.1) verwendet.<br />
Der so beschriebene Prozess hat den Nachteil, dass das Fitting für jede Fensterbewegung neu<br />
durchgeführt wird. Dies ist aber nicht notwendig, weil die Koeffizienten des angepassten Polynoms<br />
innerhalb des Datenbereichs linear sind, d.h. das Fitting muss nur einmal durchgeführt<br />
werden. Hierzu verwendet man fiktive Ordinaten, welche bis auf y0=1 überall gleich null sind.<br />
Anschließend kann mit den so berechneten Gewichtungskoeffizienten cn jeder beliebige äquidistante<br />
Datensatz geglättet werden. [NR]<br />
Der Savitzky-Golay-Algorithmus benötigt äquidistante Datenpunkte, um eine gute Glättung<br />
durchzuführen. Die gemessenen Spektren sind jedoch nicht äquidistant. Deswegen findet vor<br />
der Glättung eine lineare Interpolation der Spektren statt, so dass das Intervall 0.02 amu beträgt.<br />
Die lineare Interpolation bewirkt an dieser Stelle de facto keine Verfälschung der Signale,<br />
weil die Datendichte der gemessenen Spektren sehr groß ist.<br />
Als Standardparameter für die Glättung <strong>von</strong> Antikörperspektren werden 91 Datenpunkte festgelegt<br />
sowie ein Polynom 9ten Grades. Ein geringerer Polynomgrad bewirkt bei manchen<br />
Spektren eine Verminderung der Peakhöhe. Ein Polynom höheren Grades kann nicht verwendet<br />
werden, weil der Rechenaufwand zu groß wird. Dies ist aber auch nicht notwendig, weil
mit einem Polynom 9ten Grades die Signalintensität nicht signifikant verfälscht wird. Die Anzahl<br />
Datenpunkte, d.h. die Fenstergröße legt fest wie stark die Glättung ist. Je mehr Datenpunkte<br />
gewählt werden, desto globaler wird die Glättung durchgeführt und umso mehr gehen<br />
die lokalen Eigenschaften des Spektrums verloren. Der Wert 91 hat sich beim Betrachten verschiedener<br />
Spektren als guter empirischer Wert erwiesen.<br />
Abb. 3.2.1: Vergleich <strong>von</strong> moving window<br />
averaging (Mitte) und Savitzky-<br />
Golay-Glättung (unten) eines Spektrums.<br />
[NR S.654]<br />
Als Implementierung des Savitzky-Golay-Algorithmus wurde die ANSI-C Version aus [NR]<br />
übernommen.<br />
Abb. 3.2.2: Spektrum eines monoklonalen<br />
Antikörpers.<br />
Oben: Unmodifiziertes Spektrum.<br />
Unten: Savitzky-Golay-Glättung des<br />
Spektrums mit einem Polynom 9ten<br />
Grades und 91 Datenpunkten.<br />
41
3.3. Basislinie<br />
Die Basislinie enthält fremdes Signal, welches, falls nicht abgezogen, zu einer Verfälschung<br />
des Quantifizierungsergebnisses führt. Deswegen ist es essentiell, die Basislinie abzuziehen.<br />
Algorithmen für die Erkennung der Basislinie gibt es viele. Jeder hat seine eigenen charakteristischen<br />
Eigenschaften mit Vor- und Nachteilen. Die Diversität der Ansätze entstand nicht<br />
zuletzt durch die unterschiedlichsten Anwendungsgebiete, für die sie entwickelt wurden. Bei<br />
manchen Spektren ist es z.B. ausreichend, einfach eine Linie abzuziehen, welche durch zwei<br />
Punkte bestimmt ist: Einen am Anfang und einen am Ende des Spektrums. Bei anderen sind<br />
Ansätze, die aus der Bildbearbeitung stammen, sinnvoll. Hierbei werden morphologische<br />
nichtlineare Filter angewendet, wie z.B. der „top-hat“-Operator [TopHat].<br />
Bei einer Diskussion mit den Laboranten hat sich herauskristallisiert, dass sie im Wesentlichen<br />
zwei Ansätze wählen, um die Basislinie abzuziehen. Die einen ziehen die Basislinie mit<br />
einer lang gezogenen glatten Kurve ab, die durch das Spektrum gelegt wird, die anderen durch<br />
Linien <strong>von</strong> Peaktal zu Peaktal (vgl. Abb. 3.3.1).<br />
Um diese Methoden zu automatisieren, werden drei Algorithmen implementiert. Der erste<br />
entspricht der „Tal-zu-Tal“-Variante und wird durch Erkennung der lokalen Minima realisiert.<br />
Der zweite soll die lang gezogene Kurve nachempfinden und wird durch eine kubische Spline-Interpolation<br />
erkannt. Als Alternative zur kubischen Spline-Interpolation wird noch ein<br />
drittes Verfahren entwickelt, welches auf der 4. Ableitung des Spektrums beruht.<br />
42<br />
a)<br />
c)<br />
b)<br />
Abb. 3.3.1: Erkennung der Basislinie mittels kubischer<br />
Spline-Interpolation a) bzw. durch Legen einer Gerade<br />
<strong>von</strong> Tal zu Tal b). Vergrößerter Ausschnitt <strong>von</strong> b) ist in<br />
c) dargestellt.
3.3.1. Von Tal zu Tal<br />
Dieses Verfahren zieht <strong>von</strong> Peaktal zu Peaktal eine Gerade, welche der Basislinie entsprechen<br />
soll (vgl. Abb. 3.3.1). Die Suche nach den lokalen Minima kann relativ einfach implementiert<br />
werden, jedoch bereitet das Signalrauschen Schwierigkeiten. Selbst bei nur leicht verrauschten<br />
Spektren werden neben den Peaktälern viele weitere lokale Minima gefunden. Damit gewährleistet<br />
ist, dass nur die Minima der Peaktäler gefunden werden, wird vor die Suche ein Filter<br />
geschaltet, welcher das Spektrum glättet. Es handelt sich um den im vorigen Kapitel vorgestellten<br />
Savitzky-Golay-Filter. Als Parameter für die Glättung wird ein Polynom 4ten Grades<br />
verwendet und die Fensterbreite auf 41 Datenpunkte festgelegt. Des Weiteren wird die Glättung<br />
dreimal hintereinander ausgeführt. Der geringe Polynomgrad sowie das mehrmalige Hintereinander-Ausführen<br />
des Filters stellt sicher, dass das Spektrum sehr glatt ist. Es werden also<br />
mit hoher Wahrscheinlichkeiten ausschließlich die Peaktäler erkannt. Das mehrmalige Filtern<br />
mit diesen Parametern bewirkt zwar eine Verfälschung der Peakintensitäten, jedoch spielt<br />
dies keine Rolle, weil nur die Lage der Minima <strong>von</strong> Interesse ist und nicht deren Höhe. Als<br />
Höhe der Minima wird die Intensität des original Spektrums an entsprechender Stelle genommen.<br />
Diese Methode hat den Nachteil, dass u.U. „echtes“ Peaksignal gelöscht wird und dadurch die<br />
Massenverhältnisse eines Spektrums verfälscht werden (vgl. Abb. 3.3.1.1). Nichts desto trotz<br />
hat sich in der Validierung (vgl. Kapitel 4) gezeigt, dass mit diesem Verfahren des Basislinienabzugs<br />
die Ergebnisse einer Quantifizierung i.d.R. besser werden.<br />
3.3.2. Kubische Spline-Interpolation<br />
Abb. 3.3.1.1: Faltung (rote Kurve) zweier<br />
Peaks (graue Kurven). Mit dem „Tal-zu-Tal“-<br />
Verfahren wird auch Signalanteil abgezogen.<br />
Dies verfälscht die Intensitäten und somit<br />
u.U. auch die relativen Verhältnisse der<br />
Peaks.<br />
Der Algorithmus für diese Variante der Basislinienerkennung funktioniert auf folgende Art<br />
und Weise: Das Spektrum wird in M Teile gespalten. In jedem dieser Teilbereiche wird eine<br />
Suche nach dem minimalen y-Wert durchgeführt. Alle so ermittelten Punkte, sowie der erste<br />
und letzte Punkt des Spektrums werden in eine neue Liste geschrieben. Die Ordinaten dieser<br />
43
Liste werden durch eine kubische Spline-Interpolation verbunden und man erhält eine Basislinie<br />
für das Spektrum. Durch die Größe <strong>von</strong> M kann festgelegt werden, wie hoch die Basislinie<br />
gezogen werden soll. Ein zu großer Wert kann aber zu unerwünschten Nebeneffekten führen,<br />
da dann der Spline eher dazu neigt, auszuschlagen. Als guter empirischer Wert für die Teilbereiche<br />
M hat sich 11 erwiesen.<br />
Die kubische Spline-Interpolation wird im Folgenden kurz erläutert: Gegeben ist ein Datensatz<br />
der Form (x1, f(x1)), (x2, f(x2)), …, (xn, f(xn)). Für jedes Intervall [xi, xi-1], wobei 2
Aufgrund der Einfachheit des Verfahrens wurde die Basislinie zunächst mit dem oben beschriebenen<br />
Verfahren erkannt. Bei der später durchgeführten Bewertung der Methoden hat<br />
sich aber herausgestellt, dass der Abzug der Basislinie sehr starke Auswirkungen auf die<br />
Quantifizierung hat (vgl. Kap. 4). Ein Fehler beim Erkennen der Basislinie kann also zu falschen<br />
Ergebnissen führen. Solche Fehler kommen bei dieser Variante bei ungünstiger Lage<br />
der zu verbindenden Punkte vor. Für den Anwender äußert sich dies visuell am Ausschlagen<br />
der interpolierten Basislinie in die falsche Richtung. Der Anwender kann diesen Fehler korrigieren,<br />
indem er einen anderen Wert für M findet. Weil dieser Methode die nötige Robustheit<br />
fehlt, wurde ein weiteres Verfahren für die Erkennung der Basislinie entwickelt.<br />
3.3.3. Vierte Ableitung<br />
Als Ergebnis der kubischen Spline-Interpolation erhält man eine Basislinie welche lang gezogen<br />
über das gesamte Spektrum liegt. Die Basislinie ist also ein niederfrequentes Signal innerhalb<br />
hochfrequenter Peaksignale. Der Ansatz mit dem kubischen Spline hat den Nachteil,<br />
dass die Fenstergröße M abhängig vom betrachteten Spektrum angepasst werden muss um gute<br />
Resultate zu erhalten. Im Folgenden wird ein gänzlich anderer Ansatz zur Elimination der<br />
Basislinie vorgestellt, welches nicht den erwähnten Nachteil besitzt. Der Grundgedanke hierbei<br />
bleibt jedoch der Gleiche: die Basislinie ist ein nieder frequentes Signal im Spektrum, d.h.<br />
ein Polynom geringen Grades.<br />
Es wird die vierte Ableitung des Spektrums durchgeführt. Dadurch verschwinden alle Polynome<br />
1ten, 2ten und 3ten Grades aus dem Signal. Die nieder frequente Basislinie ist also eliminiert<br />
und es bleiben nur die hochfrequenten Peaksignale übrig. Die Quantifizierung wird<br />
auf den positiven Teil der vierten Ableitung des Spektrums durchgeführt.<br />
Wie eben bereits angedeutet ist es mit Hilfe der Ableitung möglich, Polynome geringen Grades<br />
aus einem Signal zu entfernen. Eine weitere sehr wichtige Eigenschaft der Ableitung ist,<br />
dass die Amplitudenverhältnisse nicht verzerrt werden: Die Amplitude der n-ten Ableitung eines<br />
Peaks ist umgekehrt proportional zur n-ten Potenz ihrer Halbwertsbreite. Folglich trennt<br />
Ableiten nach der Peakbreite, d.h. je größer der Grad der Ableitung, desto größer die Trennung.<br />
[Haver05]<br />
Zur Illustration dient das folgende Beispiel (vgl. dazu Abb. 3.3.3.1). Eine Gauß-Kurve (blaue<br />
Kurve), welche den Peak repräsentiert, ist auf einem Polynom 3ten Grades moduliert (rote<br />
Kurve) (vgl. a). Führt man die zweite Ableitung des Gauß-Peaks und des modulierten Signals<br />
durch (vgl. b), so sieht man, dass im modulierten Signal ein beachtlicher Anteil des Polynoms<br />
3ten Grades bereits entfernt ist. Bei der 4. Ableitung bleibt <strong>von</strong> dem Polynom 3ten Grades<br />
nichts mehr übrig, wie man an der perfekten Überlagerung beider Signale sehen kann (vgl. c).<br />
45
Dieser Mechanismus funktioniert nur dann, wenn das Hintergrundsignal einen deutlich kleineren<br />
Polynomgrad aufweist, als die Peaks des Spektrums. Dies ist für die hier betrachteten Antikörper<br />
ESI-MS-Spektren der Fall. Das Betrachten einiger repräsentativer Spektren hat gezeigt,<br />
dass es sich bei der Basislinie immer um eine sehr breite Kurve handelt, die durch das<br />
Spektrum geht. In Folge dessen ist die vierte Ableitung ausreichend, um die Basislinie aus<br />
dem Signal zu löschen. Ein höherer Ableitungsgrad ist nicht notwendig und kann sogar schädlich<br />
sein, weil ab einem bestimmten Grad auch Peaksignale eliminiert werden.<br />
Die Quantifizierung der Spezies kann – wegen der erwähnten Proportionalität – auf der vierten<br />
Ableitung durchgeführt werden. Dazu werden nur die positiven Signalanteile benötigt,<br />
weil die Peaks die gleiche Position wie das Ausgangssignal haben und positiv sind.<br />
Um die Ableitung eines Signals zu erhalten, wird der Savitzky-Golay-Filter verwendet [Sav-<br />
Gol64, NR]. Der Vorteil dabei ist, dass die Ableitung bereits geglättet ist. Als Parameter für<br />
die Glättung haben sich folgende empirische Werte als gut erwiesen: Der Grad des Polynoms<br />
sollte auf 6 gesetzt werden und die Anzahl Datenpunkte des Fensters auf 91.<br />
3.4. Isotopenverteilung<br />
Die Isotopenverteilung eines Moleküls kann durch die Entfaltung seines Polynoms berechnet<br />
werden.<br />
46<br />
a) b)<br />
c)<br />
Abb. 3.3.3.1: Blaue Kurve: Gauß-Peak. Rote<br />
Kurve: Überlagerung eines Polynoms 3ten Grades<br />
mit dem Gauß-Peak (blaue Kurve).<br />
a) Ausgangssituation. Die Peakintensität im modulierten<br />
Signal (rote Kurve) ist nicht mehr eindeutig<br />
feststellbar. Beim reinen Peaksignal (blaue<br />
Kurve) hingegen ist die Intensität sauber.<br />
b) Zweite Ableitung beider Kurven. Das Hintergrundsignal<br />
aus der modulierten Kurve ist fast<br />
komplett entfernt.<br />
c) Vierte Ableitung beider Kurven. Das Hintergrundsignal<br />
ist verschwunden und die Kurven<br />
überlagern perfekt.
Seien a, b, c, … polyisotopische Elemente wobei a1, a2, a3, …, b1, b2, b3, …, c1, c2, c3, … die<br />
Isotope der Elemente repräsentieren. Sei na, nb, nc, … die Anzahl der Atome eines Elements<br />
im Molekül. Dann lässt sich die Isotopenverteilung eines Moleküls als Produkt <strong>von</strong> Polynomen<br />
darstellen:<br />
na<br />
nb<br />
nc<br />
( a a + a + ) ⋅ ( b + b + b + ... ) ⋅ ( c + c + c + ... ) ...<br />
1<br />
+ (3.4.1)<br />
2<br />
3<br />
... 1 2 3<br />
1 2 3<br />
Die Entfaltung des Polynoms gibt Informationen über die Isotopenzusammensetzung, deren<br />
Häufigkeit und deren Masse. Zur Verdeutlichung ein Beispiel mit BrCl3 + als Molekül [Budzikiewicz92].<br />
( ) ( ) ( ) ( )<br />
( ) ( )<br />
( ) ( )<br />
( ) ( ) 3<br />
79 81 35 37 3 79 35 3 79 35 2 37<br />
Br+<br />
Br ⋅ Cl+<br />
Cl = Br ⋅ Cl + 3⋅<br />
Br ⋅ Cl ⋅ Cl<br />
79 35 37 2 79 37 3<br />
+ 3⋅<br />
Br⋅<br />
Cl ⋅ Cl + Br Cl<br />
81 35 3 81 35 2 37<br />
+ Br ⋅ Cl + 3⋅<br />
Br ⋅ Cl ⋅ Cl<br />
81 35 37 2 81 37<br />
+ 3⋅<br />
Br⋅<br />
Cl ⋅ Cl + Br ⋅ Cl<br />
(3.4.2)<br />
Der Koeffizient vor jedem Term sagt aus, wie oft die entsprechende Isotopenkombination<br />
vorkommt. Die Potenz nach jedem Isotop steht für die Menge des Isotops in der jeweiligen<br />
Kombination. Die Häufigkeit kann man aus Tabelle 2.3.1 entnehmen, um damit für jeden<br />
Term die Frequenz zu bestimmen. Zur Vereinfachung werden die Verhältnisse hier gerundet<br />
und man erhält: 35 Cl=3, 37 Cl=1, 79 Br= 81 Br=1. Im letzten Schritt müssen Isotopenkombinationen<br />
gleicher Masse zusammengefasst werden. Das Ergebnis sieht dann so aus:<br />
m/z Isotopenmuster Peakintensität Normiert<br />
184<br />
79 35<br />
Br Cl3 1*3³=27 21%<br />
186<br />
79 35 37 81 35<br />
Br Cl2 Cl + Br Cl3 3*1*3²*1+1*3³=54 42%<br />
188<br />
79 35 37<br />
Br Cl Cl2 + 81 Br 35 37<br />
Cl2 Cl 3*1*3*1²+3*1*3²*1=36 28%<br />
190<br />
79 37<br />
Br Cl3 + 81 Br 35 Cl 37 Cl2 1*1³+3*1*3*1²=10 8%<br />
192<br />
81 37<br />
Br Cl3 1*1³=1 1%<br />
Die Anzahl der Kombinationen K kann mit dem Binomialkoeffizienten berechnet werden. Die<br />
Analogie findet sich in dem Urnenmodell „Ziehen mit Zurücklegen“ wieder. Die verschiedenen<br />
Kugelsorten q entsprechen den stabilen Isotopen eines Elements. Die Anzahl n der gezogenen<br />
Kugeln entspricht der Anzahl Atome des Elements:<br />
K<br />
⎛q + n −1⎞<br />
; (3.4.3)<br />
⎝ n ⎠<br />
( q n)<br />
= ⎜ ⎟<br />
Zur Illustration dient wieder das Molekül BrCl3 + . Für Br erhält man KBr(2,1)=2 Kombinationen<br />
und für Cl3 erhält man KCl(2,3)=4 Kombinationen. Um die gesamte Menge an Permuta-<br />
47
tionen zu berechnen, multipliziert man die Resultate beider Elemente miteinander und erhält<br />
KBr(2,1)KCl(2,3)=8 Isotopenkombinationen. Dies entspricht exakt der Anzahl <strong>von</strong> Termen,<br />
welche durch die Entfaltung des Polynoms gewonnen wurden (vgl. obige Tabelle).<br />
Für die Ermittlung aller Isotopenpermutationen werden lineare diophantische Gleichungen<br />
verwendet [Chang84]. Das besondere an diesen Gleichungen ist, dass nur ganzzahlige positive<br />
Lösungen erlaubt sind:<br />
48<br />
q<br />
∑<br />
j=<br />
1<br />
x<br />
j<br />
= n<br />
(3.4.5)<br />
xj ist der absolute Anteil des j-ten Isotops im Element. Seien z.B. drei Atome des Elements<br />
Sauerstoff in einem Molekül vorhanden. Sauerstoff hat drei stabile Isotope 16 O, 17 O und 18 O.<br />
Mit obiger Formel berechnet man, dass es insgesamt 10 Permutationen gibt:<br />
i x1= 16 O x2= 17 O x3= 18 O<br />
1 3 0 0<br />
2 2 1 0<br />
3 2 0 1<br />
4 1 2 0<br />
5 1 1 1<br />
6 1 0 2<br />
7 0 3 0<br />
8 0 2 1<br />
9 0 1 2<br />
10 0 0 3<br />
Es gibt also K Isotopenkombinationen. Die Häufigkeit Pi, 1
⎛<br />
⎜<br />
n!<br />
log Pi<br />
= log p<br />
⎜<br />
⎝ x1!<br />
x2!...<br />
xq!<br />
= log<br />
=<br />
n<br />
∑<br />
u=<br />
1<br />
( n!<br />
)<br />
log<br />
⎛<br />
− log⎜<br />
⎝<br />
q<br />
q<br />
∏<br />
u=<br />
1<br />
x<br />
u<br />
( u)<br />
− log(<br />
v)<br />
+ x log(<br />
p )<br />
∑∑<br />
u=<br />
1 v=<br />
1<br />
x1<br />
1<br />
p<br />
x<br />
2<br />
2<br />
... p<br />
x<br />
q<br />
⎞ ⎛<br />
xu!<br />
⎟ + log⎜<br />
⎠ ⎝<br />
q<br />
⎛<br />
⎜<br />
⎞<br />
⎟ = log<br />
⎜<br />
⎟ ⎜<br />
⎠ ⎜<br />
⎝<br />
q<br />
∑<br />
u=<br />
1<br />
q<br />
∏<br />
u=<br />
1<br />
u<br />
p<br />
x<br />
u<br />
u<br />
⎞<br />
⎟<br />
⎠<br />
q<br />
∏<br />
u=<br />
1<br />
n!<br />
u<br />
x !<br />
u<br />
q<br />
∏<br />
u=<br />
1<br />
p<br />
x<br />
u<br />
u<br />
⎞<br />
⎟<br />
⎟<br />
⎟<br />
⎟<br />
⎠<br />
(3.4.7)<br />
Es bleibt noch das Problem bestehen, dass die Anzahl der Permutationen K i.d.R. sehr groß ist<br />
und die Berechnung <strong>von</strong> log(Pi) zeitaufwendig ist. Yergey hat 1983 einen Weg vorgeschlagen,<br />
wie man die Bestimmung <strong>von</strong> log(Pi) beschleunigen kann. Es werden zwei beliebige Permutationen<br />
in Relation gesetzt, mit dem Ergebnis, dass ein Großteil der Variablen weggekürzt wird<br />
[Yergey83]:<br />
P<br />
P<br />
i+<br />
1<br />
i<br />
⇒ P<br />
n!<br />
=<br />
n!<br />
i+<br />
1<br />
q q<br />
xu<br />
pu<br />
u=<br />
1 u=<br />
1<br />
q q<br />
∏ ∏<br />
∏<br />
u=<br />
1<br />
⎛<br />
= P<br />
⎜ i<br />
⎝<br />
x<br />
q<br />
!<br />
∏<br />
∏<br />
u<br />
u=<br />
1<br />
u= 1 u<br />
'<br />
xu!<br />
=<br />
'<br />
u p<br />
x<br />
u<br />
'<br />
xu!<br />
p<br />
x !<br />
'<br />
u<br />
xu<br />
−x<br />
u<br />
q<br />
∏<br />
u=<br />
1<br />
q<br />
∏<br />
u=<br />
1<br />
⎞<br />
⎟<br />
⎠<br />
x<br />
x<br />
'<br />
u<br />
u<br />
!<br />
!<br />
q<br />
∏<br />
u=<br />
1<br />
p<br />
'<br />
u<br />
xu<br />
−x<br />
u<br />
=<br />
q<br />
∏<br />
u= 1 u<br />
'<br />
xu!<br />
p<br />
x !<br />
'<br />
u<br />
xu<br />
−x<br />
u<br />
(3.4.8)<br />
Dieser Term wird im nächsten Schritt logarithmiert, wobei zur Vereinfachung der Schreibwei-<br />
se<br />
f<br />
u<br />
'<br />
x ! '<br />
u xu<br />
−xu<br />
: = pu<br />
definiert wird, d.h.:<br />
x !<br />
log<br />
u<br />
'<br />
u xu<br />
−xu<br />
( P ) = log(<br />
P ) + log⎜<br />
p ⎟ = log(<br />
P )<br />
i+<br />
1<br />
= log<br />
i<br />
q<br />
( P ) + log(<br />
f )<br />
i<br />
∑<br />
u=<br />
1<br />
⎛<br />
⎜<br />
⎝<br />
q<br />
∏<br />
'<br />
x !<br />
x !<br />
u= 1 u<br />
Der Logarithmus <strong>von</strong> fu entspricht dabei:<br />
log<br />
( f )<br />
u<br />
⎧<br />
⎪<br />
⎪<br />
= ⎨<br />
⎪<br />
⎪<br />
⎪⎩<br />
x<br />
u<br />
∑<br />
'<br />
v=<br />
xu<br />
+ 1<br />
log<br />
u<br />
u<br />
⎞<br />
⎟<br />
⎠<br />
' ( v)<br />
− ( x − x ) log(<br />
p )<br />
u<br />
0<br />
xu<br />
' ( xu<br />
− xu<br />
) log(<br />
pu<br />
) − ∑log(<br />
v)<br />
u<br />
'<br />
v=<br />
xu<br />
+ 1<br />
u<br />
x<br />
x<br />
x<br />
u<br />
u<br />
u<br />
i<br />
> x<br />
= x<br />
< x<br />
⎛<br />
+ log ⎜<br />
⎝<br />
'<br />
u<br />
'<br />
u<br />
'<br />
u<br />
q<br />
∏<br />
u=<br />
1<br />
f<br />
u<br />
⎞<br />
⎟<br />
⎠<br />
(3.4.9)<br />
(3.4.10)<br />
49
Der Algorithmus für die Berechnung der Isotopenverteilung ist in Abb. 3.4.1 dargestellt. Zuerst<br />
wird die chemische Summenformel des Moleküls bestimmt. Anschließend wird für jedes<br />
Element die Isotopenverteilung berechnet, d.h. Bestimmung der nominellen Masse und der<br />
Häufigkeit für jede Isotopenkombination. Die Häufigkeiten gleicher Massen werden zusammengefasst.<br />
Sind alle Elemente behandelt, wird noch der Massendefekt korrigiert, indem die<br />
exakte Masse der häufigsten Isotopenkombination ermittelt wird und um den entsprechenden<br />
Differenzbetrag zur nominellen Masse korrigiert wird. Um den Vorgang noch weiter zu beschleunigen,<br />
wird nach jeder Berechnung der Isotopenhäufigkeit einer Kombination ein Pruning<br />
durchgeführt, d.h. wenn die Häufigkeit nicht mehr als 0,01 % vom aktuellen Maximum<br />
ausmacht, wird diese Kombination nicht weiter behandelt.<br />
Mit modernen Rechnern (P4 3.2 GHz) geht die Berechnung der Isotopenverteilung einer<br />
schweren Kette (~50 kD) in weniger als einer Sekunde <strong>von</strong> statten. Bei der Berechnung <strong>von</strong><br />
10 schweren Ketten bedarf es etwa 3 Sekunden Rechenzeit. Sollte einmal der Bedarf vorhanden<br />
sein, mehrere Isotopenverteilungen in einem Batch zu berechnen oder größere Moleküle<br />
zu prozessieren, so sollte ein anderer Lösungsansatz gewählt werden. Deutlich schneller als<br />
der hier angewandte Multi-Nomial-Ansatz arbeitet zum Beispiel der <strong>von</strong> Rockwood et al.<br />
entworfene Algorithmus, welcher eine schnelle Fourier Transformation (FFT) zur Berechnung<br />
nutzt [Rockwood95]. Die im Rahmen dieser Arbeit behandelten Moleküle lassen sich alle relativ<br />
schnell berechnen und daher spielt die Zeit keine kritische Rolle. Somit wird auf die Im-<br />
50<br />
Abb. 3.4.1: Algorithmus für die Berechnung der Isotopenverteilung<br />
eines Moleküls
plementierung des <strong>von</strong> Rockwood et al. entwickelten Algorithmus zugunsten des einfacheren<br />
Multi-Nomial-Algorithmus verzichtet.<br />
Leider gibt es auch Fälle, bei denen keine Informationen über die Molekülstruktur vorhanden<br />
sind und somit eine chemische Formel nicht vorliegt. Eine Berechnung der Isotopenverteilung<br />
ist da nicht mehr möglich und es muss somit ein anderer Weg eingeschlagen werden, um die<br />
Peaks zu simulieren.<br />
Bei den Untersuchungen der Isotopenverteilung hat sich gezeigt, dass sich mit zunehmender<br />
Molekülgröße die Isotopenkurve immer mehr einer Gauß-Kurve nähert. Es würde sich also<br />
anbieten, die Peaks näherungsweise durch eine Gauß-Funktion darzustellen. Die Position der<br />
Funktion ist durch den m/z-Wert bestimmt, die Intensität durch die Intensität des Spektrums<br />
am jeweiligen m/z-Wert bzw. durch die Hüllkurve I(z), falls diese schon bestimmt ist. Der<br />
einzige fehlende Parameter ist die Halbwertsbreite. Diese könnte man bestimmen, indem man<br />
eine gedachte Linie auf halber Höhe legt, welche das Spektrum links und rechts schneidet.<br />
Der Abstand der beiden Punkte entspricht dann der Halbwertsbreite. Dieser Weg hat sich allerdings<br />
als nicht praktikabel erwiesen. Das Hauptproblem hierbei ist, dass es Massen im<br />
Spektrum geben kann, welche gar nicht als Peak in Erscheinung treten, d.h. die gedachte Linie<br />
schneidet das Spektrum nie.<br />
Als weitaus bessere Lösung bietet es sich an, die Summenformel abzuschätzen, um mit dieser<br />
in den Algorithmus für die Berechnung der Isotopenverteilung zu gehen. Für die Bestimmung<br />
der durchschnittlichen Aminosäure haben Senko et al. die statistische Verteilung der Aminosäuren<br />
in der PIR <strong>Protein</strong> Datenbank untersucht. Dabei sind sie auf folgende Summenformel<br />
gekommen: [Senko95]<br />
C4,9384H7.7583N1,3577O1,4773S0,0417 (3.4.11)<br />
Hiermit erhält man für die durchschnittliche Masse einer Aminosäure 111,1254D. Ausgehend<br />
da<strong>von</strong> lässt sich für eine gegebene Molekülmasse die Anzahl der Aminosäuren und damit die<br />
Anzahl jedes oben erwähnten Atoms berechnen. Für große Moleküle (ab 6000D) stimmt die<br />
geschätzte Summenformel sehr gut mit der tatsächlichen überein. Denn bei einem Molekül<br />
mit z.B. 1000 C-Atomen spielen 50 C-Atome mehr oder weniger für die resultierende Isotopenverteilung<br />
kaum eine Rolle. Da hier Glykoproteine ab 10kD betrachtet werden, ist die<br />
Nährung folglich unproblematisch, d.h. die geschätzte Isotopenverteilung ist zur tatsächlichen<br />
sehr ähnlich.<br />
In Abb. 3.4.2 ist die Isotopenverteilung <strong>von</strong> vier Spezies dargestellt.<br />
51
3.5. Simulation der Peakverbreiterung<br />
Die Isotopenverteilung allein reicht nicht aus, um einen Peak im gemessenen Spektrum zu simulieren.<br />
Es fehlt noch eine wichtige Komponente, nämlich die durch das ESI-MS-Gerät verursachte<br />
auflösungsabhängige Verbreiterung der Peaks [Chapman92].<br />
Um die Verbreiterung zu simulieren, wird auf jede Masse, welche man aus der Isotopenverteilung<br />
erhält, eine Gauß-Kurve GAUSS(x;a,b,c) gelegt, wobei a die Amplitude ist, b der Mittelpunkt<br />
und c der Streuungsparameter.<br />
52<br />
Abb. 3.4.2: Spektrum eines Antikörpers, aufgenommen<br />
bei einer Auflösung <strong>von</strong> R=5000. Es ist<br />
die Isotopenverteilung <strong>von</strong> vier im Spektrum vorkommenden<br />
schweren Ketten dargestellt. Man<br />
sieht, dass die Isotopenverteilung sehr gut mit<br />
dem gemessenen Signal übereinstimmt. Die Verbreiterung<br />
am Sockel der Signalpeaks ist durch<br />
Addukte verursacht, welche hier nicht dargestellt<br />
sind.<br />
Abb. 3.5.1: Theoretische Peakform bei<br />
verschiedenen ESI-MS-Auflösungen für<br />
ein einfach geladenes Molekül.<br />
2<br />
⎛<br />
⎞<br />
⎜<br />
1 ⎛ x − b ⎞<br />
GAUSS ( x;<br />
a,<br />
b,<br />
c)<br />
= a exp − ⎟<br />
⎜<br />
⎜ ⎟<br />
(3.5.1)<br />
⎟<br />
⎝<br />
2 ⎝ c ⎠ ⎠<br />
Die Faltung aller Gauß-Kurven ergibt dann die beobachtete Peakform. Die Position jeder<br />
Gauß-Verteilung ist durch den m/z-Wert der zugehörigen Isotopenmasse festgelegt. Ebenso<br />
verhält es sich mit der Amplitude, welche durch die Häufigkeit der korrespondierenden Isotopenkombination<br />
determiniert wird. Als einziger Parameter muss noch die Breite der Gauß-<br />
Kurve bestimmt werden. Dazu verwendet man die Rayleigh’sche Definition <strong>von</strong> Auflösung.
Der Zusammenhang zwischen Auflösung R, Halbwertsbreite FWHM und m/z-Wert eines monoisotopischen<br />
Peaks ist folgender:<br />
m / z<br />
R =<br />
FWHM<br />
m / z<br />
⇒ FWHM =<br />
R<br />
(3.5.2)<br />
Um die Halbwertsbreite der Gauß-Funktion zu bestimmen, müssen diejenigen x Punkte bestimmt<br />
werden, bei denen die Gauß-Funktion die halbe Höhe annimmt. Anschließend wird die<br />
Differenz der Punkte gebildet und man erhält die Halbwertsbreite.<br />
2<br />
⎛ 1 x0<br />
b ⎞ 1<br />
a exp⎜ ⎛ − ⎞<br />
− ⎜ ⎟ ⎟ = f ( xmax<br />
)<br />
(3.5.3)<br />
⎜ 2 c ⎟<br />
⎝ ⎝ ⎠ ⎠<br />
2<br />
Die maximale Höhe f(xmax)=a erhält man, wenn man für xmax, den Mittelpunkt b einsetzt:<br />
2<br />
⎛ x b ⎞<br />
a ⎜<br />
1 ⎛ 0 − ⎞<br />
⎟ ⎟<br />
1<br />
exp − ⎜ =<br />
⎜ c ⎟<br />
⎝<br />
2 ⎝ ⎠ ⎠<br />
2<br />
2<br />
⎛ x b ⎞<br />
a ⎜<br />
1 ⎛ 0 − ⎞<br />
⎟ ⎟<br />
1<br />
exp − ⎜ =<br />
⎜ c ⎟<br />
⎝<br />
2 ⎝ ⎠ ⎠<br />
2<br />
1 ⎛ x0<br />
− b ⎞<br />
− ⎜ ⎟<br />
2 ⎝ c ⎠<br />
x<br />
= ± c<br />
2ln(<br />
2)<br />
⎛ 1 ⎞<br />
= ln⎜<br />
⎟<br />
⎝ 2 ⎠<br />
2<br />
− ( x0<br />
− b)<br />
= −ln(<br />
2)<br />
2<br />
2c<br />
( x<br />
2<br />
− b)<br />
2<br />
= 2c<br />
ln( 2)<br />
0<br />
1/<br />
2<br />
2<br />
+ b<br />
f ( b)<br />
a<br />
(3.5.4)<br />
Den Zusammenhang zwischen Halbwertsbreite FWHM und Streuungsparameter c erhält man,<br />
indem die Differenz der beiden Punkte gebildet wird:<br />
FWHM = x − x = 2 2ln(<br />
2)<br />
c = 2.<br />
354820044c<br />
FWHM<br />
⇒ c =<br />
2.<br />
354820044<br />
2<br />
1<br />
(3.5.5)<br />
Nun hat man alle Parameter beisammen, um für jeden Peak die Verbreiterung zu berechnen.<br />
Die Faltung muss für jeden Peak (Ladungszustand einer Masse) neu berechnet werden, weil<br />
53
die Peakbreite nicht konstant ist. Sie ist nichtlinear vom Ladungszustand abhängig (vgl. Abb.<br />
3.5.2).<br />
3.6. Curve-Fitting<br />
Die Peaks einer Serie sind oft durch andere Peaks überlagert. Das macht eine Identifizierung<br />
der tatsächlichen Signalhöhe problematisch. Man kann sich aber die Tatsache zu Nutze machen,<br />
dass die Hüllkurve jeder Serie einer stochastischen Verteilung folgt. Sofern man die<br />
Verteilung kennen würde, wäre es ein Leichtes, die Intensitäten an den überlappenden Peaks<br />
zu berechnen.<br />
Wie in Kap. 2.3. bereits erläutert, liegen die Analyten in mehreren Konformationen vor, wobei<br />
jede einer eigenen Ladungsverteilung Bi(z) folgt. Die Summe aller Basisfunktionen ergibt die<br />
im Spektrum beobachtete Hüllkurve I(z): [Dobo01]<br />
54<br />
n<br />
∑<br />
i=<br />
1<br />
I ( z)<br />
= B ( )<br />
(3.6.1)<br />
i z<br />
Abb. 3.5.2: Zusammenhang zwischen Peakbreite eines<br />
monoisotopischen Peaks und Ladungszustand. Als Masse<br />
wurde 50kD gewählt und als Geräteauflösung wurde<br />
5000 gesetzt. Mit steigender Ladung (z) nimmt die Peakbreite<br />
(FWHM) ab.<br />
Die durchschnittliche Ladung jeder Basisfunktion (die Position des Maximums <strong>von</strong> Bi(z)) ist<br />
für die Konformation bzw. Oberflächenzugänglichkeit des Analyten charakteristisch. Die<br />
Breite (Standardabweichung <strong>von</strong> Bi(z)) entspricht der Heterogenität der Konformation.<br />
Schwach strukturierte (große Oberfläche) <strong>Protein</strong>e erzeugen höhere Ladungszustände als stark<br />
strukturierte (kleine Oberfläche). Der Grund dafür ist, dass bei schwach strukturierten <strong>Protein</strong>en<br />
die Oberfläche größer ist und somit für die Anlagerung größerer Ladungsmengen zugänglicher<br />
ist. Bei stark strukturierten <strong>Protein</strong>en ist die Oberfläche geringer und dadurch können<br />
während der Ionisierung nicht so viele Ladungsträger aufgenommen werden, da die elektrosta-
tische Abstoßung zu groß ist. Die genauen Mechanismen, welche dahinter stecken, sind aber<br />
noch nicht bekannt. [Šamalikova03]<br />
Um die Anzahl relevanter Basisfunktionen (Faltungszustände des Analyten) zu bestimmen,<br />
müsste man mehrere Experimente bei unterschiedlichen Pufferbedingungen durchführen [Dobo03].<br />
Man könnte z.B. Aufnahmen bei verschiedenen pH-Werten tätigen und beobachten,<br />
wie sich die Hüllkurve abhängig vom pH-Wert ändert. Eine Automatisierung dieses Schrittes<br />
ist möglich. So können bei einer Singulärwert-Dekomposition (SVD) der Messreihen, die Anzahl<br />
relevanter Singulärwerte bestimmt werden, welche der Anzahl Basisfunktion entsprechen<br />
[Dobo01]. Dieser Ansatz kann hier nicht angewendet werden, weil nicht da<strong>von</strong> ausgegangen<br />
werden kann, dass für jede <strong>Analyse</strong> ein Dutzend Aufnahmen gemacht werden. Vielmehr wird<br />
dem Anwender die Freiheit gelassen, durch sein fachliches Wissen selbst zu bestimmen, wie<br />
viele relevante Faltungszustände vorhanden sind. Als Faustregel kann man jedoch sagen, dass<br />
eher weniger als mehr Basisfunktionen benutzt werden sollen. Ursache hierfür ist, dass mit<br />
steigender Zahl an Basisfunktionen das Modell natürlich immer besser erklärt werden kann.<br />
Teilweise kann es sogar passieren, dass es keine eindeutige Lösung für die Faltung gibt. Somit<br />
ist die physikalische Aussagekraft dann doch eher zu bezweifeln. Bei Verwendung weniger<br />
Basisfunktionen sinkt zwar die Qualität des Fittings, die Aussagekraft jedoch ist wesentlich<br />
stärker, da es jetzt viel besser die wahre Natur der Hüllkurve widerspiegelt.<br />
Speziell bei Antikörpern kann man zu der Zahl relevanter Funktionen folgende Annahme machen:<br />
Die leichte Kette besitzt zwei homologe Einheiten VL und CL. Die schwere Kette besitzt<br />
vier homologe Einheiten VH, CH1, CH2 und CH3, wobei die C-Domänen viel ähnlicher untereinander<br />
sind als zur V-Domäne. Jede dieser Einheit verfügt über eine interne Disulfidbindung<br />
(vgl. Abb. 2.2.2). Um die Ionsierungsfähigkeit zu verbessern, werden den Proben Detergenzien<br />
zugeführt. Dies hat zur Folge, dass es zu zufälligen Trennungen der Disulfidbindungen<br />
kommt, d.h. es bilden sich verschiedene Faltungszustände. Die leichte Kette z.B. kann eine,<br />
zwei oder gar keine offene Disulfidbindung(en) haben. Es gibt also drei echte Zustände. Für<br />
ein Fitting der Hüllkurve reichen zwei Basisfunktionen völlig aus, weil die Variante mit zwei<br />
offenen Bindungen selten ist und damit nicht ins Gewicht fällt. Bei der schweren Kette sind<br />
mehr Konformationen möglich, wobei auch hier die meisten da<strong>von</strong> nicht ins Gewicht fallen,<br />
weil sie ähnlich verteilen. Drei Basisfunktionen sind somit völlig ausreichend. Diese Annahme<br />
beruht auf Erfahrungswerten. Für einen Beweis dieses Sachverhalts müssten weitere <strong>Analyse</strong>n<br />
durchgeführt werden.<br />
Das Fitting kann nur so gut sein wie das Modell, welches hierzu benutzt wird. Deswegen ist<br />
es <strong>von</strong> entscheidender Bedeutung, ein Modell zu wählen, welches die wahre Natur des Phänomens<br />
möglichst gut beschreibt. Für die hier untersuchten Glykoproteine wird eine Gauß-<br />
Verteilung als Basisfunktion angenommen. Diese hat sich in der Praxis als tauglich erwiesen,<br />
weil sie den physikalischen Verteilungsprozess sehr gut widerspiegelt.<br />
55
Um die Parameter der Basisfunktionen zu finden, welche der Hüllkurve zugrunde liegen, wird<br />
folgendermaßen vorgegangen: Als erstes wird eine Datenliste erstellt, welche alle freien Peaks<br />
der untersuchten Spezies enthält. Freie Peaks sind all diejenigen, welche nicht durch Peaks<br />
anderer Massen überlagert werden. Um auch extreme Fälle noch gut behandeln zu können,<br />
werden auch Peaks herangezogen, welche überlappen, wobei die Überlappung nicht mehr als<br />
5% der Peakintensität einnehmen darf. Beim Fitting sind nichtlineare Transformationen der<br />
Daten nicht zulässig, da sie das Ergebnis verfälschen. Folglich kann beim Fitten nicht mit der<br />
m/z-Skala gearbeitet werden, weil die Transformation <strong>von</strong> I(z) nach I(m/z) nicht linear ist, d.h.<br />
die m/z-Werte der Datenpunkte müssen auf z-Werte umgerechnet werden. Mit diesen Datenpunkten<br />
wird anschließend ein Fitting der Basisfunktionen durchgeführt. Um genauer zu sein:<br />
es werden die Parameter gefittet. Im Falle der Gauß-Funktion sind diese Mittelpunkt, Amplitude<br />
und FWHM.<br />
3.6.1. Levenberg-Marquardt-Algorithmus<br />
Für das Fitting der Basisfunktionen auf die Datenpunkte gibt es eine große Zahl an Algorithmen.<br />
Jedoch kommen nicht alle da<strong>von</strong> in Frage. Es gibt zwei Klassen an Fitting-Algorithmen:<br />
lineare und nichtlineare. Die erste Klasse scheidet für das hiesige Problem aus, weil es nicht<br />
linear ist. Folglich muss ein Algorithmus der nichtlinearen Fitting Klasse verwendet werden.<br />
Zunächst wurde die „Downhill Simplex“-Methode für Multidimensionen, entwickelt <strong>von</strong><br />
Nelder und Mead, betrachtet. Diese wurde auch <strong>von</strong> [Dobo01] verwendet, welche mittels Entfaltung<br />
der Hüllkurve Konformationsanalysen <strong>von</strong> <strong>Protein</strong>en durchgeführt haben. In einigen<br />
Tests mit einfachen Daten erwies sich dieser Algorithmus jedoch als ungeeignet, weil bei fast<br />
allen Läufen der Algorithmus gar nicht konvergiert hat.<br />
Als Alternative kam der Levenberg-Marquardt-Algorithmus in Frage, welcher als einer der<br />
Standard-Algorithmen im Fitting-Bereich gilt. Dieser hat sich bei den ersten Versuchen mit<br />
Testdaten als robuster entpuppt. Eine später vorgenommene Untersuchung mit synthetischen<br />
Daten zeigt ebenfalls, dass man mit dem LM-Algorithmus gute Ergebnisse erzielt (vgl. Kap.<br />
4). Deshalb fällt die Wahl für eine Fitting-Methode auf den LM-Algorithmus. Im Folgenden<br />
wird die prinzipielle Idee des LM-Algorithmus erläutert. Wegen der Komplexität des Verfahrens<br />
kann nicht auf alle Details eingegangen werden. Den interessierten Leser verweise ich auf<br />
[Madsen04], welcher eine überaus detaillierte Beschreibung des LM-Algorithmus gibt.<br />
Beim nichtlinearen Fitting und somit auch beim LM-Algorithmus wird eine Kostenfunktion<br />
minimiert, welche folgende Form hat:<br />
56
F<br />
1<br />
2<br />
m<br />
∑<br />
i=<br />
1<br />
( x)<br />
= ( f ( ) )<br />
i x<br />
2<br />
Die zu optimierenden Parameter sind im Vektor x ( x x ,..., x )<br />
1,<br />
2<br />
n<br />
(3.6.1.1)<br />
= abgelegt. Bei<br />
n<br />
f : ℜ a ℜ,<br />
i = 1,...,<br />
m ∧ m ≥ n handelt es sich um die Residuenfunktion. Sei das Fitting-<br />
i<br />
Modell M(x,t), dann ist fi(x)=yi-M(x,ti). Um die Darstellung zu vereinfachen, wird der Vektor<br />
f(x)=(f1(x),f2(x),…,fm(x)) definiert und man erhält:<br />
F<br />
m 1 1 1 T<br />
= ∑ i<br />
2 i=<br />
1 2 2<br />
2<br />
2<br />
( x)<br />
( f ( x)<br />
) = f ( x)<br />
= f ( x)<br />
f ( x)<br />
(3.6.1.2)<br />
Es wird angenommen, dass die Kostenfunktion 2fach differenzierbar und glatt ist, so dass die<br />
folgende Taylor-Approximation anwendbar ist:<br />
F<br />
T ' 1 T ''<br />
3<br />
( x h)<br />
= F(<br />
x)<br />
+ h F ( x)<br />
+ h F ( x)<br />
h + O(<br />
h )<br />
+ (3.6.1.3)<br />
2<br />
Damit berechnet man die Kosten, wenn vom aktuellen Parametervektor x um h:=t-x „Schritte“<br />
nach x+h gegangen wird. Die O-Notation am Ende der Gleichung, zeigt wo die Taylor-<br />
Reihe abgeschnitten wurde. Hier betrifft dies alle Terme dritter Ordnung oder höher – diese<br />
werden ignoriert, da sie nicht signifikant sind. Die erste Ableitung F ’ (x) entspricht dem Gradienten<br />
g(x) und die zweite Ableitung F ’’ (x) der Hesse-Matrix H(x). Sei x * ein lokales Minimum,<br />
dann gilt: g(x)=F ’ (x * )=0. Dies ist eine notwendige, aber nicht ausreichende Bedingung:<br />
Die erste Ableitung ergibt auch für Sattelpunkte Null. Um eine ausreichende Bedingung zu<br />
erhalten, muss zusätzlich gelten, dass die zweite Ableitung ungleich Null ist, d.h. H(x)=F ’’ (x * )<br />
ist positiv definit. Falls H(x) negativ definit wäre, hätte man ein lokales Maximum gefunden.<br />
Bei der nichtlinearen Optimierung wird iterativ vorgegangen. Mit jedem Schritt <strong>von</strong> xk nach<br />
xk+1 wird F(xk) minimiert, d.h. F(xk)>F(xk+1). Optimalerweise hat man eine Methode, welche<br />
abhängig vom aktuellen Gradienten kleine bzw. große Schritte h durchführt. Ist der Gradient<br />
klein, sollten große Schritte gemacht werden, ist der Gradient hingegen groß, sind kleine<br />
Schritte wünschenswert. Dies soll bewirken, dass man in einem kleinen Tal (schlechtes lokales<br />
Minimum) nicht hängen bleibt und zum anderen, dass man ein gutes lokales Minimum<br />
nicht übersieht. Wenn h klein ist, kann man f durch eine Taylor-Reihe approximieren:<br />
2<br />
f ( x + h)<br />
= f ( x)<br />
+ J ( x)<br />
h + O(<br />
h ) ≅ l(<br />
h)<br />
≡ f ( x)<br />
+ J ( x)<br />
h<br />
(3.6.1.4)<br />
J steht für die Jakobi-Matrix:<br />
57
58<br />
⎛ df1<br />
⎜<br />
⎜ dx1<br />
J ( x)<br />
= ⎜ ...<br />
⎜ df m<br />
⎜<br />
dx<br />
⎝ 1<br />
...<br />
...<br />
...<br />
df1<br />
⎞<br />
⎟<br />
dxn<br />
⎟<br />
... ⎟<br />
dfm<br />
⎟<br />
dx<br />
⎟<br />
n ⎠<br />
Setzt man Gl. (3.6.1.4) in die Definition <strong>von</strong> (3.6.1.2) ein, so erhält man:<br />
1 T<br />
F(<br />
x + h)<br />
≅ L(<br />
h)<br />
≡ l(<br />
h)<br />
l(<br />
h)<br />
2<br />
1 T<br />
T T 1 T T<br />
= f(x) f(x) + h J ( x)<br />
f(x) + h J ( x)<br />
J ( x)<br />
h<br />
2<br />
2<br />
T T 1 T T<br />
= F(<br />
x)<br />
+ h J ( x)<br />
f(x) + h J ( x)<br />
J ( x)<br />
h<br />
2<br />
(3.6.1.5)<br />
(3.6.1.6)<br />
Es ist derjenige Parameterschritt h gesucht, welcher L(h) minimiert: = argmin { L(<br />
h)}<br />
. Um<br />
h zu finden, werden zunächst der Gradient und die Hesse-Matrix bestimmt:<br />
'<br />
g(<br />
x)<br />
= L ( h)<br />
= J ( x)<br />
''<br />
H ( x)<br />
= L ( h)<br />
= J ( x)<br />
T<br />
f ( x)<br />
+ J ( x)<br />
T<br />
J ( x)<br />
T<br />
J ( x)<br />
h<br />
h h<br />
(3.6.1.7)<br />
Man sieht, dass L ’’ (h) unabhängig <strong>von</strong> h ist. L ’’ (h) ist symmetrisch und wenn die Jacobi-<br />
Matrix J vollen Rang hat, d.h. die Spalten <strong>von</strong> J sind linear unabhängig, dann ist F ’’ (h) positiv<br />
definit. Der Schritt h, welcher die Kostenfunktion minimiert, kann gefunden werden, indem<br />
T<br />
T<br />
L ' ( h)<br />
= 0 ⇒ J ( x)<br />
J ( x)<br />
h = −J<br />
( x)<br />
f gelöst wird. Der LM-Algorithmus löst eine leichte<br />
opt<br />
T<br />
T<br />
Variation da<strong>von</strong>, nämlich: ( J ( x)<br />
J ( x)<br />
+ µ I ) h = −J<br />
( x)<br />
f . Der zusätzliche Parameter µ wird<br />
opt<br />
als „Dämpfungsfaktor“ verwendet. Ist µ>0, so ist die Koeffizienten-Matrix positiv definit und<br />
somit zeigt hopt in eine absteigende Richtung. Für große Werte <strong>von</strong> µ wird ein kleiner Schritt<br />
durchgeführt. Kleine µ Werte hingegen kommen am Ende der Optimierung zum Tragen, wenn<br />
der gesuchte Parametervektor nahe am Optimum ist. Der Dämpfungsparameter wird bei jedem<br />
Iterationsschritt angepasst, damit sichergestellt ist, dass die Kostenfunktion minimiert<br />
wird. Ein weiterer Vorteil der Einführung dieses Parameters ist, dass Situationen in denen<br />
J(x) T J(x) singulär wird, abgefangen werden. Sobald hopt bestimmt ist, wird der neue Parame-<br />
tervektor x gesetzt: x : = x + αhopt<br />
. Der Algorithmus ist in Abb. 3.6.1.1 zusammengefasst.
Beim Least-Squares-Fitting wird die Summe der Quadrate der Residuen minimiert. Dieser<br />
Mechanismus funktioniert nicht bzw. nur unzureichend, wenn starke Ausreißer vorhanden<br />
sind. Das Quadrat der Residuen führt in dem Bereich des Ausreißers dazu, dass die gefittete<br />
Kurve sich weit vom Optimum entfernt. Ein anderer Problemfall ist gegeben, wenn die y-<br />
Daten sich über mehrere Größenordnungen erstrecken. Hier kann das Quadrat der Residuen<br />
der größten y-Daten die Residuen der kleineren y-Daten überragen mit dem Ergebnis, dass die<br />
kleinen Werte nur schlecht oder gar nicht gefittet werden. Diese Punkte werden in den Kapiteln<br />
3.6.3. und 3.6.4. behandelt.<br />
Zunächst wird die Implementierung aus [NR] für den unbeschränkten LM-Algorithmus benutzt.<br />
Dieser erweist sich jedoch als nicht robust genug. Beim Testen mit synthetischen Daten<br />
kam es fast immer zur Bildung einer Singulärmatrix (bei der Gauss-Jordan-Elimination),<br />
wenn die Startparameter ungünstig gewählt sind, d.h. die Fitting-Methode brach ab. Ein weiteres<br />
Problem ist, dass die Implementierung nur sehr spartanisch ist, d.h. viele Entwicklungen,<br />
welche seit der Veröffentlichung des urspr. Algorithmus 1963 bekannt sind, sind nicht in den<br />
Code eingegangen. Somit eignet sich diese Variante nicht, um das hiesige Problem zu lösen.<br />
Stattdessen wird auf den <strong>von</strong> Manolis Lourakis implementierten LM-Algorithmus gesetzt.<br />
Dieser bietet neben der Beseitigung vorhin genannter Mängel auch die wichtige Option an,<br />
Randbedingungen für die Parameter bzw. die Gleichungen zu setzen. Eine sehr wichtige Eigenschaft<br />
im Hinblick auf die Optimierung des Fittings.<br />
3.6.2. Güteparameter<br />
Abb. 3.6.1.1: Skizze des LM-Algorithmus. Er<br />
stoppt, wenn eine der folgenden Bedingungen<br />
erfüllt ist:<br />
• die maximale Zahl kmax an Iterationen<br />
ist erreicht,<br />
• die Ordnung <strong>von</strong> g ist kleiner ε1,<br />
• die Änderung <strong>von</strong> hlm ist kleiner ε2.<br />
Als Werte werden für ε 10 -15 gesetzt und für<br />
kmax 3000.<br />
Um die Güte eines Fittings zu bestimmen und somit verschiedene Fittings miteinander zu<br />
vergleichen, bedarf es eines Maßes. Ein gebräuchliches Maß ist das Bestimmtheitsmaß:<br />
59
60<br />
2<br />
R =1 −<br />
SSE<br />
SSM<br />
(3.6.2.1)<br />
SSE ist die Summe der quadratischen Fehler, d.h. die Summe der Residuen zum Quadrat.<br />
SSM ist die Summe der Quadrate über das arithmetische Mittel (vgl. Abb. 3.6.2.1). Wenn R²<br />
den Wert 1 einnimmt, dann ist der Fit perfekt. Je näher an Null der Wert kommt, desto<br />
schlechter ist der Fit. In extremen Fällen kann der Wert sogar negativ werden, d.h. das Modell<br />
beschreibt die Daten schlechter, als eine Linie durch das arithmetische Mittel. Seien beispielsweise<br />
folgende Daten gegeben:<br />
X Beobachtet Erwartet Residuen²<br />
(Residuen über arithmethisches<br />
Mittel)²<br />
1 1,09 1,00 0,008 0,795<br />
2 1,34 1,41 0,005 0,410<br />
4 1,70 2,00 0,089 0,079<br />
6 2,54 2,45 0,008 0,311<br />
10 3,24 3,16 0,005 1,576<br />
Summiert man die quadratischen Fehler, erhält man SSE=0,12. Das arithmetische Mittel beträgt<br />
1,98. Damit erhält man SSM=3,17. Mit obiger Formel erhält man schließlich für das Bestimmtheitsmaß<br />
R² einen Wert <strong>von</strong> 0,96. Dies ist ein sehr guter Wert.<br />
Abb. 3.6.2.1: Links sind die Residuen für das gefittete Modell (rote Kurve) zu sehen (SSE). Rechts sind die Residuen<br />
über das arithmetische Mittel der Punkte dargestellt (SSM).<br />
Als weiteres Kriterium, um über die Güte eines Fits zu entscheiden, können die Vertrauens-<br />
Intervalle der Parameter betrachtet werden. Je nach Anwendung kommen 90%-, 95%- oder<br />
99%-Vertrauensintervalle in Frage. Das Intervall sagt aus, dass der gesuchte wahre Parameter<br />
zu 90%, 95% bzw. 99% in dem angegebenen Intervall liegt. Am gebräuchlichsten ist das<br />
95%-Vertrauensintervall, welches auch im Rahmen dieser Arbeit verwendet wird.<br />
Die Vertrauensintervalle lassen sich direkt aus der Kovarianz-Korrelations-Matrix Cov der<br />
Parameter berechnen, welche <strong>von</strong> den meisten Fitting-Algorithmen mit als Ergebnis zurück-
geliefert werden: Auf der Diagonale der Matrix befinden sich die Eigenkorrelationen jedes Parameters.<br />
Zieht man <strong>von</strong> diesen Werten die Wurzel, so erhält man den Standardfehler SEi je-<br />
des Parameters Parami, d.h. SE i = Covii<br />
. Damit kann nun das Intervall berechnet werden:<br />
[Motulsky]<br />
CI = Param ± TI�V ( 0.<br />
05,<br />
DOF)<br />
* SE<br />
(3.6.2.2)<br />
i<br />
i<br />
i<br />
DOF steht für die Anzahl der Freiheitsgrade und berechnet sich aus der Differenz der Anzahl<br />
Datenpunkte minus der Anzahl zu bestimmender Parameter. Die Funktion TINV berechnet<br />
den T-Wert der Student-Verteilung als eine Funktion der Wahrscheinlichkeit und des Freiheitsgrads.<br />
Betrachtet man den R² Wert zusammen mit den Vertrauensintervallen der Parameter, kann<br />
nun eine sehr gute Aussage über die Qualität des Ergebnisses gemacht werden. Der R² Wert<br />
allein sagt zwar aus, wie gut die gefittete Kurve sich den Punkten nähert, jedoch kann man allein<br />
daraus nicht herauslesen, ob die gefundenen Parameter die einzige richtige Lösung darstellen<br />
oder nicht. Anhand der Vertrauensintervalle lässt sich jedoch diese Frage beantworten.<br />
Sind nämlich die Intervalle CIi eng, so spiegelt dies einen sehr guten Fit wieder, sind sie breit,<br />
so kann man da<strong>von</strong> ausgehen, dass man eine <strong>von</strong> vielen möglichen Lösungen gefunden hat,<br />
d.h. je kleiner die Intervalle, desto besser sind die Parameter durch die Datenpunkte definiert.<br />
3.6.3. Optimierung des Fittings<br />
Bei den im Rahmen dieser Arbeit untersuchten Spektren ist häufig der Fall, dass die y-Werte –<br />
die Intensitäten – sich über mehrere Größenordnungen erstrecken. Zum Beispiel kommt es oft<br />
vor, dass eine Masse sich über einen Bereich <strong>von</strong> etwa 500 „Counts“ erstreckt, eine andere<br />
über etwa 2000 „Counts“ und wieder eine andere kann sich über bis zu 20.000 „Counts“ erstrecken.<br />
Solche Fälle entstehen beispielsweise bei der Messung reduzierter Antikörper.<br />
Die Variation bei den Antikörpern ist i.d.R. nur auf der schweren Kette vorhanden. Die leichte<br />
Kette hingegen ist bei allen Spezies identisch. Folglich kommt es bei den Peaks der leichten<br />
Ketten zu sehr hohen „Counts“, da die leichten Ketten aller in der Probe befindlichen Antikörper<br />
zusammen zur Signalstärke beitragen. Dies hat zwei negative Folgen: Die erste ist,<br />
dass ein Fitting über einen so großen Raum mit mehr Rechenzeit verbunden ist. Folglich ist<br />
eine befriedigende Konvergenz oft noch nicht abgeschlossen, wenn die maximale Anzahl an<br />
Iterationen erreicht ist. Die zweite betrifft die Vergleichbarkeit verschiedener Hüllkurven.<br />
Dies ist relevant, sofern Ergebnisse verschiedener Experimente verglichen werden sollen.<br />
61
Um diese Probleme zu umgehen, werden die Daten auf der y-Skala linear transformiert: Sie<br />
werden auf einen Bereich <strong>von</strong> 0% bis 100% normalisiert. Diese Art der Normalisierung beeinflusst<br />
nicht das Fitting-Ergebnis. Eine nichtlineare Transformation hingegen verändert die<br />
relativen Positionen der Datenpunkte. Beim Fitten äußert sich das dadurch, dass eine andere<br />
Funktion gefunden wird, welche χ² minimiert (vgl. Abb. 3.6.3.1). Es werden also andere Parameter<br />
gefunden. [Motulsky]<br />
Als weitere Verbesserungsmaßnahme, werden für jeden Parameter Schranken gesetzt, d.h. es<br />
werden nur sinnvolle Parameterbereiche zugelassen. Dies hat zur Folge, dass der Suchraum<br />
und somit die notwendige Rechenzeit weiter verkleinert wird. Für die Glykoproteine haben<br />
sich folgende Schranken als sinnvoll erwiesen:<br />
62<br />
Abb. 3.6.3.1: Effekt einer nicht-linearen Transformation. In beiden Bildern ist die Hüllkurve eines Antikörpers mit einer<br />
Masse <strong>von</strong> ca. 50kD dargestellt (schwarze Linie). Links auf der z-Skala und rechts auf der m/z-Skala<br />
(m/z=(m+1.008z)/z). Rechts ist die Variante, wie man sie im Spektrum sehen würde. In beiden Fällen wurde ein LM-<br />
Fitting (rote Kurve) mit zwei Gauß-Funktionen (grau gestrichelte Kurven) durchgeführt. Auf der z-Skala hat der Fit<br />
perfekt geklappt und man erhält für die Hüllkurve I(z)=GAUSS(z,696,39,12.5)+GAUSS(z,1840,55,16.5). Auf der m/z-<br />
Skala hingegen gelingt das Fitting überhaupt nicht.<br />
• die Amplitude muss in einem Bereich zwischen 1 und 130 liegen,<br />
• der Mittelpunkt muss zwischen 5 und 95 liegen,<br />
• und die Halbwertsbreite muss in dem Bereich zwischen 2 und 17 liegen.<br />
Ein weiterer Faktor, der optimiert werden kann, betrifft die Initialisierung der Startparameter.<br />
Es ist empfehlenswert, diese nicht einfach auf den Wert 1 zu setzen. Ebenso sollten sie nicht<br />
auf einen anderen konstanten Wert gesetzt werden. Vielmehr sollte der Wert abhängig vom<br />
aktuellen Umfeld, dynamisch gewählt werden. Speziell für Glykoproteine werden die Startparameter<br />
wie folgt festgelegt: Die Amplitude wird auf einen 15% der maximalen Intensität gesetzt.<br />
Die Zentren der Basisfunktionen werden in gleichmäßigen Abständen auf der z-Skala<br />
verteilt. Für die Halbwertsbreite wird ein Wert <strong>von</strong> 4 vergeben.<br />
Wenn die zu fittende Funktion mehrere Minima hat, kann man nicht mit Sicherheit sagen,<br />
dass man das globale Minimum findet. Das gefundene Minimum hängt <strong>von</strong> den gewählten<br />
Startparametern ab. Als Lösung für dieses Problem werden fünf verschiedene Fittings mit jeweils<br />
maximal 5000 Iterationen durchgeführt. Nach jedem Fit-Lauf werden die Startparameter<br />
zufällig verändert. Am Ende werden diejenigen Parameter gewählt, welche den besten R²
Wert ergeben haben. Die Ausführung mehrerer Fit-Läufe mit unterschiedlichen Startparametern<br />
soll gewährleisten, dass man nicht fälschlicherweise in einem lokalen Minimum hängen<br />
bleibt.<br />
Beim Betrachten komplexer Spektren kann häufig das Problem auftreten, dass weniger Datenpunkte<br />
als Parameter vorhanden sind. In diesem Fall ist ein Fitting nicht durchführbar. Mit<br />
komplexen Spektren, sind solche Spektren gemeint, in denen viele Varianten einer Masse<br />
vorkommen, welche sich nur durch geringe Massendifferenzen unterscheiden. Ebenso sind<br />
Kombinationen, bei denen Massen <strong>von</strong> ungefähr halber Größe vorkommen, ungünstig, wie es<br />
z.B. bei reduzierten Antikörpern der Fall sein kann (leichte Kette ca. 25kD und schwere Kette<br />
ca. 50kD). Die Peaks dieser beschriebenen Fälle liegen im Spektrum entsprechend dicht beieinander<br />
und überlagern häufig gegenseitig. Dies führt dazu, dass wenige freie Peaks und somit<br />
wenige Punkte für das Fitting zu Verfügung stehen.<br />
Um diesem Problem gerecht zu werden, kann man folgende Annahme machen: Die Varianten<br />
einer Masse bzw. eines Glykoproteins haben eine sehr ähnliche Hüllkurve. Folglich kann man<br />
einen einmal bestimmten Satz an Parametern der Modellfunktion für die anderen Molekülvarianten<br />
wieder verwenden. Hierzu definiert man sich eine Masse als Hauptkomponente, welche<br />
für die anderen Varianten als Grundlage dienen soll. Das stellt kein Problem dar, da häufig<br />
eine Masse im Spektrum derart gut repräsentiert ist, dass deren Hüllkurve ohne weiteres<br />
gefittet werden kann.<br />
Eine alternative Lösung dazu ist es, zuerst die Hüllkurven derjenigen Massen zu bestimmen,<br />
welche über ausreichend freie Punkte verfügen. Anschließend kann die so gewonnen Informationen<br />
dazu genutzt werden, um sukzessive die Intensität überlappender Peaks zu bestimmen.<br />
Der Nachteil bei letzterem Verfahren ist, dass mit jedem Schritt ein gewisser Prozentsatz an<br />
Fehlern mit einfließt. Am Ende kann es dann passieren, dass die Peaks der letzten Massen nur<br />
sehr ungenau sind, so dass ein Fitting nicht das wahre Ergebnis liefert.<br />
3.6.4. Ausreißer<br />
Nach Optimierung des Fitting-Verfahrens sind beim Betrachten biologischer Daten Unregelmäßigkeiten<br />
in der Hüllkurve mancher Antikörpervarianten bzw. Massen aufgefallen. In Abb.<br />
3.6.4.1 sind die nicht überlappenden Peaks der Masse M1=48454,71D eines Antikörpers abgebildet.<br />
Ein Fitting der Hüllkurve ist hier nicht möglich, weil die Intensität in jedem zweiten<br />
Ladungszustand einen Ausschlag nach oben macht. Zunächst war nicht klar, woher dieses<br />
Verhalten herrührt. Folgende zwei Vermutungen lagen nahe: a) Es besteht ein Fehler im Programmcode<br />
b) eine nicht qualitativ erfasste Masse befindet sich im Spektrum.<br />
63
Möglichkeit a) konnte nach einem Blick auf das Spektrum ausgeschlossen werden, da hier<br />
deutlich zu sehen ist, dass die Intensität tatsächlich <strong>von</strong> einem Ladungszustand zum nächsten<br />
stark variiert. Außerdem sind bei allen m/z-Werten keine Überlagerungen mit bekannten Massen<br />
vorhanden. Diese Fakten deuten darauf hin, dass eine qualitativ nicht erfasste Masse im<br />
Spektrum vorhanden ist, welche an jeder zweiten Stelle mit der hier untersuchten Spezies der<br />
Masse M1 überlagert. Um diese Theorie zu bestätigen, muss zunächst die Masse der unbekannten<br />
Spezies ermittelt werden. Hierzu werden zwei beliebige nacheinander folgende Peaks<br />
(m/z)1 und (m/z)2 an den überlappenden Stellen betrachtet:<br />
64<br />
⎛ m ⎞<br />
⎜ ⎟<br />
⎝ z ⎠<br />
1<br />
⎛ m ⎞<br />
⎜ ⎟<br />
⎝ z ⎠<br />
2<br />
m + nm<br />
=<br />
n<br />
m + ( n + 1)<br />
m<br />
=<br />
n + 1<br />
⎢ ⎛ m ⎞<br />
⎢ ⎜ ⎟ − m +<br />
H<br />
⎢ ⎝ z ⎠2<br />
⇒ n =<br />
⎢⎛<br />
m ⎞ ⎛ m ⎞<br />
⎢⎜<br />
⎟ − ⎜ ⎟<br />
⎣⎝<br />
z ⎠1<br />
⎝ z ⎠<br />
⎛⎛<br />
m ⎞<br />
⇒ M = n ⎜<br />
⎜⎜<br />
⎟ − m<br />
⎝⎝<br />
z ⎠1<br />
H<br />
+<br />
H<br />
2<br />
H<br />
⎥<br />
⎥<br />
⎥<br />
⎥<br />
⎥<br />
⎦<br />
+<br />
+<br />
⎞<br />
⎟<br />
⎠<br />
Abb. 3.6.4.1: Die nicht überlappenden Peaks der<br />
Serie sind durch Kreuze repräsentiert. Die durchgezogene<br />
Kurve ist das Ergebnis eines Fittings mit<br />
zwei Basisfunktionen auf den gegebenen Punkten.<br />
(3.6.4.1)<br />
Für die Berechnung der Masse werden die Peaks bei (m/z)1=1010,45 und (m/z)2=1054,43<br />
verwendet. Dies ergibt eine Masse <strong>von</strong> M2=24228,71D, was auf eine Variante der leichten<br />
Kette hindeutet. Die Serie <strong>von</strong> M2 fällt exakt mit jedem zweiten Peak der Serie <strong>von</strong> M1 zusammen.<br />
Nun muss die unbekannte Masse nicht zwangsweise exakt auf M2 fallen. Eine kleine<br />
Abweichung da<strong>von</strong> würde immer noch zu einer Überlappung der Peaks im Spektrum führen.<br />
Die berechnete Masse M2 ist vielmehr ein Hinweis auf den Massenbereich, welcher betrachtet<br />
werden muss, um die tatsächliche Variante / Masse zu entdecken. Die leichte Kette des hier<br />
betrachteten Antikörpers besitzt eine Masse <strong>von</strong> MLK=24200,21D. Betrachtet man die mögli-
chen Modifikationen, so sieht man, dass nur Addukt-Signale in Frage kommen. Wie sich herausstellt,<br />
ist die gesuchte Masse, welche mit M1 im Spektrum überlappt, M3=24222,21D, eine<br />
Na-Addukt Variante <strong>von</strong> MLK. Im Spektrum wurde sie wahrscheinlich übersehen, weil es<br />
für jeden z-Wert in die Peaks <strong>von</strong> M1 reinfällt. Nachdem diese Addukt-Variante erfasst und im<br />
Programm eingetragen wird, verschwindet jeder zweite Punkt und ein Fitting der Hüllkurve<br />
ist möglich (vgl. Abb. 3.6.4.2).<br />
Abb. 3.6.4.2:<br />
Links: Gefittete Hüllkurve der Masse 48454,71D nach<br />
Erkennung der Ausreißer.<br />
Unten: Ausschnitt aus dem Spektrum <strong>von</strong> CD22. Die<br />
grüne Peakserie entspricht einer Varianten der schweren<br />
Kette mit einer Masse <strong>von</strong> 48454,71D. Die blaue<br />
Peakserie entspricht dem Na-Addukt der leichten Kette<br />
und hat eine Masse <strong>von</strong> 24222,21D. Man sieht wie<br />
in jedem zweiten Signal die beiden Massen überlagern.<br />
Nicht immer sind die Fälle so extrem wie der hier vorgestellte. Es kann durchaus vorkommen,<br />
dass es nur ein oder zwei Ausreißer gibt. Ebenso kann es sein, dass die Intensitätsunterschiede<br />
nicht so stark sind wie die hier gezeigten. Dies ist z.B. der Fall, wenn Addukt-Varianten der<br />
schweren Kette verantwortlich sind. Diese haben ja eine geringere Intensität im Spektrum und<br />
fallen dementsprechend nicht so stark auf bei Überlappungen.<br />
Da solche Addukt-Signale immer wieder vorkommen und nicht immer annotiert werden, ist<br />
eine Methode wünschenswert, welche automatisch erkennt, ob es sich bei den Punkten um<br />
Ausreißer handelt oder nicht:<br />
Von allen Massen werden die Addukt-Varianten simuliert. Da es bis zu einer n-fachen Anlagerung<br />
<strong>von</strong> Na + oder K + Ionen an ein Molekül kommen kann, wird die Zahl auf maximal zwei<br />
65
Ionisierungen beschränkt. Dies kann ohne Bedenken gemacht werden, weil mit zunehmender<br />
Zahl an Addukten die Wahrscheinlichkeit sinkt, dass sich solche bilden. Dementsprechend gering<br />
fällt die Intensität im Spektrum aus, d.h. meistens werden deren Signale im Spektrum<br />
eher untergehen. Im nächsten Schritt wird überprüft, ob die simulierten Addukt-Varianten mit<br />
den Peaks der Masse, dessen Hüllkurve bestimmt wird, überlagern. Falls diese überlagern,<br />
werden sie als Ausreißer markiert. Diese Variante hat sich als zu sensitiv herausgestellt. So ist<br />
die Zahl falsch positiver unverhältnismäßig groß.<br />
Für den zweiten Versuch die Ausreißer zu erkennen, wurde ein komplett anderer Weg eingeschlagen.<br />
Hierbei wird die Steigung als Kriterium verwendet. Die Idee ist folgende: Zunächst<br />
wird die y-Streuung der Punkte ermittelt und gespeichert. Als nächstes wird jeder Punkt der<br />
Hüllkurve betrachtet. Falls die Kurve links vom aktuell betrachteten Punkt steigt und rechts<br />
vom Punkt sinkt, und die Steigung einen <strong>von</strong> der Streuung abhängigen Schwellenwert überschreitet,<br />
wird der Punkt als Ausreißer markiert. Diese Variante hat sich im Vergleich zu erstgenannten<br />
als robuster erwiesen. Die Sensitivität kann anhand des Schwellenwerts erhöht<br />
oder verringert werden. Ein Nachteil hierbei ist, dass kein universeller Schwellenwert gesetzt<br />
werden kann. Für manche Spektren ist ein geringer Wert besser als ein hoher und bei anderen<br />
ist dieser Sachverhalt gerade umgekehrt.<br />
Die dritte Möglichkeit, welche ausprobiert wurde beruht auf der Annahme, dass die niedrigeren<br />
Punkte keine Ausreißer sind und die höheren Punkte eher Ausreißer darstellen können.<br />
D.h. wenn eine Verfälschung auftritt, dann durch Überlappung mit anderen Massen, was eine<br />
Steigerung der Signalintensität an entsprechender Stelle bewirkt. Zur Ausreißer-Erkennung<br />
wird wie folgt vorgegangen: Es wird eine Savitzky-Golay-Glättung der Datenpunkte durchgeführt<br />
mit einem Polynom 2ten Grades und 5 Datenpunkten als Fenstergröße. Man erhält dadurch<br />
eine Kurve, welche die Tendenz der Punkte aufzeigt. Alle Punkte die oberhalb der geglätteten<br />
Kurve liegen werden als Ausreißer markiert. In der Praxis hat sich diese Methode als<br />
die beste erwiesen und wird deshalb als automatische Erkennungsmethode in MF II angeboten.<br />
Neben den automatischen Erkennungsmechanismen, wird auch die Möglichkeit geboten, manuell<br />
Ausreißer zu bestimmen.<br />
66
4. Technische Umsetzung<br />
In diesem Kapitel wird die Entwicklungsumgebung kurz vorgestellt, wobei teilweise auch auf<br />
Implementierungsdetails eingegangen wird. Eine Beschreibung der Programmoberfläche <strong>von</strong><br />
Massfinder II lässt sich in Anhang C finden.<br />
Massfinder I, welches für die qualitative <strong>Analyse</strong> entwickelt wurde, ist komplett in der Skriptsprache<br />
Tcl/Tk geschrieben [ELehmann05]. Die Gründe hierfür lagen an den Möglichkeiten,<br />
schnell und einfach ein Programm zu entwickeln und zum anderen an der Tatsache, dass<br />
Tcl/Tk auf allen wichtigen Plattformen wie etwa Mac, Linux oder MS Windows eingesetzt<br />
werden kann.<br />
Eine der Hauptanforderungen war es, das existierende Programm durch Methoden für eine<br />
Quantifizierung zu erweitern. Eine komplette Neuentwicklung war also nicht erwünscht und<br />
somit stand die Vorgabe fest, Tcl/Tk als Programmiersprache zu verwenden.<br />
Abb. 4.1: Multi-Layer-Architektur <strong>von</strong><br />
Massfinder II.<br />
Der Aufbau <strong>von</strong> Massfinder II entspricht einer Multi-Schicht-Architektur (vgl. Abb. 4.1). Das<br />
Programm gliedert sich in eine Präsentationsschicht, eine Logikschicht und eine Persistenzschicht.<br />
In der Präsentationsschicht sind die Dialogdarstellung sowie die Dialogsteuerung eingebaut.<br />
Als Programmiersprache wird hierfür eine objektorientierte Variante <strong>von</strong> Tcl/Tk verwendet,<br />
nämlich incr Tcl (http://incrtcl.sourceforge.net/itcl/). Die Logikschicht ist in ANSI-C<br />
geschrieben und implementiert die Geschäftsprozesse sowie damit verbundenen Funktionen.<br />
Schließlich gibt es noch die Persistenzschicht, welche die Datenhaltung regelt und ebenfalls in<br />
ANSI-C programmiert ist. Als Dateiformat für die Daten wird der XML (Extended Markup<br />
Language) Standard verwendet.<br />
Damit man <strong>von</strong> Tcl aus auf ANSI-C Prozeduren zugreifen kann, wird eine Tcl Erweiterungs-<br />
Bibliothek (DLL) erzeugt, welche die notwendigen Funktionen enthält. Zentraler Punkt in der<br />
67
DLL ist die Methode DLLEXPORT int Masslib_Init (Tcl_Interp *interp) {…}, weil<br />
hier alle für incr Tcl zur Verfügung stehenden Kommandos registriert werden. An dieser Stelle<br />
wird also das Interface für die Verbindung zwischen der Präsentationsschicht und der Logikschicht<br />
definiert. Angenommen, man will eine ANSI-C Methode namens int<br />
advps_isotopedistr(ClientData data, Tcl_Interp *interp, int objc, Tcl_Obj<br />
*CONST objv[]) {…} im Interface bekannt geben, so dass die Methode in incr Tcl unter dem<br />
Namen isotope_distribution(…) zur Verfügung steht. Die Registrierung dieses Kommandos<br />
würde wie folgt durchgeführt werden:<br />
68<br />
Itcl_RegisterObjC (interp, "isotope_distribution",<br />
advps_isotopedistr, (ClientData)NULL,<br />
(Tcl_CmdDeleteProc *)NULL);<br />
Die Gründe für die logische Trennung des Codes in mehrere Schichten sind vielfältig. Zum<br />
einen spielen Faktoren wie Wiederverwendbarkeit, Flexibilität sowie Wartbarkeit eine Rolle<br />
und zum anderen die Performanz des Programms. Die Performanz ist deshalb <strong>von</strong> Bedeutung,<br />
weil Tcl nicht für intensive Rechenoperationen, wie sie hier durchgeführt werden müssen, geeignet<br />
ist (vgl. Konzepte aus 3. Kapitel). Deshalb wird die GUI mit Tcl/Tk umgesetzt, während<br />
die Logik in ANSI-C abgehandelt wird.<br />
Der C-Code wird im Falle <strong>von</strong> MS Windows in eine DLL gekapselt, welche <strong>von</strong> Tcl/Tk aus<br />
angesprochen wird. Für eine evt. gewünschte Portierung auf andere Plattformen kann der<br />
ANSI-C- und Tcl/Tk-Code bis auf kleine Änderungen komplett wieder verwendet werden.<br />
Für die Darstellung der Spektren wird die freie Bibliothek PLplot<br />
(http://plplot.sourceforge.net/) verwendet. Diese bietet entsprechende Erweiterungen an, so<br />
dass sie <strong>von</strong> Tcl aus benutzt werden kann.<br />
Während der Entwicklung traten die meisten Fehler auf Ebene der Präsentationsschicht auf.<br />
Dies liegt an der Art der Skriptsprache Tcl, welche nicht typisiert ist. Syntaxfehler treten deswegen<br />
erst zur Laufzeit des Programms auf. Bei ANSI-C beschränkten sich die meisten Probleme<br />
auf Speicherzugriffsfehler, die jedoch selten waren und schnell behoben werden konnten.<br />
Als Entwicklungswerkzeuge für die Programmierung wurden die OpenSource-Produkte Dev-<br />
C++ (http://www.bloodshed.net/devcpp.html) sowie Ased (http://www.tcl-home.de/ased) für<br />
Tcl/Tk verwendet.<br />
Im Folgenden wird erläutert welche Programmteile selber entwickelt wurden, welche <strong>von</strong><br />
Drittanbietern stammen und wo die entsprechenden Bausteine in der Architektur (vgl. Abb.<br />
4.1) eingebaut wurden.
Die Methoden für die Berechnung der Isotopenverteilung eines Moleküls wurden alle selber<br />
entwickelt. Der Code ist in der Logik-Schicht angesiedelt und somit in ANSI-C programmiert.<br />
Die für die Berechnung notwendigen Funktionen entsprechen zum Großteil den Methoden aus<br />
Abb. 3.4.1. Dazu gehören Methoden welche die Isotopenkombinationen berechnen, deren relative<br />
Häufigkeit bestimmen, die Einzelverteilungen zusammenfassen, den Massendefekt korrigieren<br />
und die Häufigkeiten skalieren. Zusätzlich wurden Methoden implementiert, welche<br />
die <strong>von</strong> der Geräteauflösung abhängige Peakverbreiterung berechnen.<br />
Ebenso in der Logikschicht eingebaut sind die Routinen des Savitzky-Golay-Filters, welche<br />
aus [NR] stammen. Einzig die Funktion für das Anwenden der Savitzky-Golay-Koeffizienten<br />
(vgl. Gl. (3.2.1)) musste selber programmiert werden. Um den Filter ohne Signalverfälschende<br />
Wirkung anwenden zu können, bedarf es wie bereits in Kap. 3.2. erwähnt äquidistanter Datenpunkte.<br />
ESI-MS-Spektren erfüllen diese Eigenschaft nicht und es muss folglich interpoliert<br />
werden. Der Code für die lineare Interpolation der Daten ist eine Eigenentwicklung.<br />
Bei den Routinen für die Elimination der Basislinie handelt es sich bis auf die kubische Spline<br />
Interpolation und den Savitzky-Golay-Filter für die 4. Ableitung welche beide aus [NR]<br />
stammen um Eigenentwicklungen.<br />
Die Bibliothek für den LM-Algorithmus, welche für das Fitting der Hüllkurven verwendet<br />
wird, stammt <strong>von</strong> [Lourakis05]. Diese ist im Gegensatz zur [NR] Implementierung wesentlich<br />
robuster. Die Methode welche den LM-Algorithmus aufruft und dabei versucht die Startparameter<br />
möglichst geschickt zu wählen wurde selber programmiert. Ebenso wurden die Methoden<br />
für die Erkennung der Ausreißer selber programmiert.<br />
Die Funktionen für die Peakauswahl, d.h. Erkennung überlappender Peaks sowie die Berechnung<br />
der Quantitäten sind ebenfalls selber geschrieben und zwar in ANSI-C.<br />
Neben den hier erwähnten Aspekten wurden eine Reihe weiterer Hilfsfunktionen implementiert,<br />
welche in der Logikschicht immer wieder zur Anwendung kommen. Beispielhaft seien<br />
zwei Methoden erwähnt: Die eine formatiert Tcl-Konforme Fehlermeldung und die andere<br />
dient zum Verfolgen <strong>von</strong> Nachrichten im Debug-Modus.<br />
Auf Ebene der Präsentationsschicht wurde die Seite „Envelope Modelling“ eigens für das Fitting<br />
der Hüllkurven entwickelt und zum vorhandenen Programm hinzugefügt (vgl. Anhang<br />
C). Daneben wurden noch diverse Anpassungen an verschiedenen Stellen im Code vorgenommen.<br />
So mussten entsprechende Menüpunkte gesetzt werden und kleinere Dialogboxen<br />
erstellt werden, um die oben beschriebenen Funktion aufrufen zu können. Außerdem mussten<br />
existierende iTcl Klassen um verschiedene Attribute erweitert werden damit die Datenhaltung<br />
gewährleistet ist. Die bestehenden Methoden für das Berechnen <strong>von</strong> Peakserien wurden aus<br />
dem Tcl Code ausgelagert und in ANSI-C geschrieben, da sie erstens dadurch schneller <strong>von</strong><br />
69
statten gehen und zweitens nicht in der Präsentationsschicht gehören. Während dem kompletten<br />
Entwicklungszeitraum wurden darüber hinaus Fehler aus dem bestehenden Code beseitigt,<br />
sofern welche gefunden wurden.<br />
Neben den Entwicklungen, welche das Programm Massfinder II betreffen wurden zusätzlich<br />
einige Werkzeuge in ANSI-C geschrieben. Deren Aufgabe ist im Wesentlichen die Generierung<br />
synthetischer Daten. Diese wurden für die Validierung verwendet (vgl. folgendes Kapitel).<br />
70
5. Validierung<br />
An dieser Stelle wird eine Validierung der entwickelten Methoden anhand <strong>von</strong> Monte-Carlo-<br />
Simulationen durchgeführt.<br />
Die Güte der Algorithmen bzw. das gesamte Verfahren kann anhand empirischer Daten nur<br />
bedingt überprüft werden, da hier die wahren Quantitäten unbekannt sind. Ein Vergleich mit<br />
anderen Quantifizierungsmethoden gibt zwar Aufschluss darüber, ob man sich im richtigen<br />
Bereich bewegt, jedoch kann es auch bei diesen Methoden zu Abweichungen vom tatsächlichen<br />
Wert kommen. Deswegen müssen die Referenzmethoden kritisch betrachtet werden. Um<br />
eine korrekte Aussage über die Güte der hier entwickelten Methoden zu treffen, werden deshalb<br />
Simulationen durchgeführt: Synthetische Daten werden mit den entwickelten Konzepten<br />
analysiert, um die Verfahren zu validieren.<br />
Es werden zwei Aspekte des Programms validiert. Zum einen findet eine separate Bewertung<br />
des letzten Teils des Arbeitsablaufs statt, nämlich des Fittings der Hüllkurve. Und zum anderen<br />
wird die Quantifizierung, im gesamten Prozessablauf betrachtet, validiert.<br />
5.1. Validierung des Hüllkurven-Fittings<br />
Die Bewertung des letzten Bausteins – die Bestimmung der Hüllkurve – wird mittels der<br />
Monte-Carlo-Simulation durchgeführt. Bei einer Monte-Carlo-Simulation werden mehrere<br />
Szenarien eines Modells erzeugt, um anschließend einen – wie auch immer gearteten – Test<br />
auf den generierten Szenarien durchzuführen. Die bei dem Test erhaltenen Variablen werden<br />
in einem Histogramm aufgetragen, auf dem man sehen kann, welcher Verteilung diese folgen,<br />
und wie groß die Streuung der Variablen ist. Dadurch kann geschätzt werden, in welchem<br />
Rahmen sich die Qualität des Verfahrens bewegt.<br />
Die Simulationen sollen aufzeigen, wie stabil das Konzept ist, deswegen werden die generierten<br />
Hüllkurven mit viel Rauschen versehen. Zusätzlich werden nur wenige, schlecht verteilte<br />
Punkte aus der Hüllkurve für das Fitting herangezogen. Sehr schwierige Voraussetzungen also,<br />
um die richtigen Parameter zu bestimmen.<br />
Als Referenzmodell wird die Hüllkurve einer schweren Kette eines Antikörpers verwendet<br />
(vgl. Abb. 5.1.1 und Kap. 3.6). Ausgehend <strong>von</strong> diesem Modell werden insgesamt 500 Szenarien<br />
erzeugt. Bei jedem Szenario werden die y-Ordinaten des Basismodells mit einem 10%igen<br />
Gauß-Rauschen versehen. Dies soll, durch Überlappung mit z.B. Addukt-Signalen, verzerrte<br />
Intensitäten simulieren. Im nächsten Schritt werden zufällig 20 Punkte aus der generier-<br />
71
ten Hüllkurve gezogen. Basierend auf diesen 20 Punkten wird schließlich ein Fitting durchgeführt,<br />
bei dem versucht wird die Hüllkurve zu rekonstruieren.<br />
Für alle so erzeugten und gefitteten Szenarien / Hüllkurven werden die einzelnen Parameter in<br />
einem Histogramm aufgetragen, um deren Verteilung zu sehen. Die Ergebnisse der Monte-<br />
Carlo-Simulation sind in Abb. 5.1.2 zusammengefasst. Für alle drei Basisfunktionen sind die<br />
Histogramme (die Werte, welche aus dem Fitting resultieren) der Parameter Mittelpunkt und<br />
Sigma (Breite) aufgetragen. Beim Blick auf die Resultate fällt auf, dass die Streuung der Parameter<br />
Mittelpunkt und Sigma bei den letzten beiden Basisfunktionen am größten ist. Ein<br />
Grund hierfür kann sein, dass diese beiden stark überlappen müssen, um die resultierende<br />
Hüllkurve zu erzeugen (vgl. Abb. 5.1.1). B1 ist durch die Hüllkurve verhältnismäßig gut charakterisiert.<br />
B2 und B3 hingegen sind nicht eindeutig durch die Hüllkurve determiniert, d.h.<br />
die Position und die Amplitude beider Basisfunktionen können variiert werden und man erhält<br />
immer noch ein gutes Fitting Resultat (R² nahe 1). Konkret wird im Beispiel B3 beim Fitting<br />
einerseits <strong>von</strong> B1 und andererseits <strong>von</strong> B2 beeinflusst. Dadurch kommt es zu größeren Abweichungen<br />
der Parameter <strong>von</strong> den tatsächlichen Werten.<br />
Beim Betrachten der großen Parametervarianzen darf man nicht vergessen, dass die Simulationen<br />
schwierig ausgelegt sind – sie sollen die Grenzen aufzeigen. So beträgt bei den analytischen<br />
Daten das Rauschen i.d.R. unter 10% und die Punkte, auf denen ein Fitting durchgeführt<br />
wird, sind meistens äquidistant, was gewährleistet, dass über den gesamten Datenbereich<br />
ein gutes Fitting durchführbar ist. Bei den Simulationen hingegen wurden die Punkte zufällig<br />
gezogen. Es kann also durchaus passieren, dass ein Bereich der Hüllkurve überaus gut charakterisiert<br />
ist und ein anderer sehr schlecht. Dies erklärt, warum die Parameterabweichung vom<br />
tatsächlichen Wert stellenweise so groß ist (s. Abb. 5.1.2 B3).<br />
Neben den Parametern der Basisfunktionen ist auch die Betrachtung der Fläche (hier: Summe<br />
<strong>von</strong> I(z) über alle Ladungszustände z), welche die Hüllkurve beschreibt, <strong>von</strong> Interesse.<br />
Schließlich spiegelt sich die Fläche der Hüllkurve direkt im Quantifizierungsergebnis wider.<br />
Um diese Eigenschaft zu charakterisieren werden zwei weitere Testreihen gestartet, wobei jede<br />
1000 Szenarien enthält. Die Anzahl Szenarien wurde verdoppelt, um eine bessere Ge-<br />
72<br />
Abb. 5.1.1: Dargestellt ist die Hüllkurve<br />
einer schweren Kette eines Antikörpers.<br />
Folgende Verteilung wird für das<br />
Erzeugen der Hüllkurve verwendet:<br />
I(z)=B1+B2+B3<br />
B1=GAUSS(1647,39,4.7)<br />
B2=GAUSS(1698,60,4.2)<br />
B3=GAUSS(2855,52,5.4)
nauigkeit für die zu erwartende Standardabweichung zu bekommen. Bei beiden Testreihen<br />
sind die Bedingungen für das Erzeugen der Datenpunkte identisch zu den vorhin durchgeführten<br />
Simulationen. Nur bei der zweiten Testreihe gibt es einen Unterschied: Die Punkte sind<br />
nicht zufällig aus der generierten Hüllkurve gewählt sondern äquidistant, was der Normalfall<br />
bei biologischen Daten ist.<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
0<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
B1 - Parameter: Center - StdErr: 8,25<br />
31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55<br />
B2 - Parameter: Center - StdErr: 9,99<br />
0<br />
34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
B3 - Parameter: Center - StdErr: 20,10<br />
c<br />
0<br />
2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98<br />
B1 - Parameter: Sigma - StdErr: 4,91<br />
Abb. 5.1.2: Ergebnis einer Monte-Carlo-Simulation mit 500 Tests. Es sind die Histogramme der Parameter Mittelwert<br />
und Breite / Sigma einer jeden Basisfunktion abgebildet. Für jeden Parameter ist zusätzlich die Standardabweichung<br />
vom Erwartungswert angegeben.<br />
Die Variation der Fläche beider Testreihen ist in Abb. 5.1.3 zusammengefasst. Die erste Testreihe<br />
ergibt eine Standardabweichung der Fläche <strong>von</strong> 25,8%. Zum Vergleich dazu erhält man<br />
eine Standardabweichung <strong>von</strong> nur 2,52% wenn die Punkte äquidistant sind. Sind die Datenpunkte<br />
äquidistant, stört das 10%-ige Rauschen sowie die geringe Zahl an Datenpunkten<br />
kaum, was sich in der geringen Standardabweichung der Fläche <strong>von</strong> nur 2,52% äußert. Dies<br />
lässt den Schluss zu, dass eine Quantifizierung auf ähnlichen biologischen Daten gut gelingt.<br />
Einzig im niederprozentualen Bereich, d.h. bei Massen, die mit nur ca. 5% Anteil im Spekt-<br />
140<br />
120<br />
100<br />
80<br />
60<br />
40<br />
20<br />
0<br />
120<br />
100<br />
80<br />
60<br />
40<br />
20<br />
0<br />
90<br />
80<br />
70<br />
60<br />
50<br />
40<br />
30<br />
20<br />
10<br />
0<br />
1 2 3 4 5 6 7 8 9 10 11 12 13 14<br />
B2 - Parameter: Sigma - StdErr: 5,50<br />
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16<br />
B3 - Parameter: Sigma - StdErr: 5,56<br />
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16<br />
73
um vertreten sind, muss man Abstriche in der Qualität machen. Eine exakte Aussage für solche<br />
Massen ist bei einer Standardabweichung <strong>von</strong> 2,52% nur noch schwer zu treffen.<br />
Als Resultat kann man sagen, dass bei sehr schlechten Daten eine automatische Quantifizierung<br />
für stark ausgeprägte Spezies noch durchführbar ist, wohingegen bei schwach repräsentierten<br />
Spezies eine Aussage bei so großen Standardabweichungen eher einem Lotto-Spiel<br />
gleicht. Die Qualität des Ergebnisses kann aber sicherlich durch den Eingriff eines erfahrenen<br />
Anwenders (visuelle Kontrolle, Setzen der Startparameter) bei schwierigen Fällen gesteigert<br />
werden.<br />
5.2. Validierung der Quantifizierungspipeline<br />
Damit die komplette Quantifizierungspipeline validiert werden kann, muss die Simulation an<br />
der Wurzel ansetzen, nämlich am Anfang des Quantifizierungsprozesses. Um das zu ermöglichen,<br />
werden synthetische Spektren erzeugt. Bei den künstlich erzeugten Spektren sind die<br />
Verhältnisse der zur Synthese verwendeten Massen bekannt. Somit kann bei einer <strong>Analyse</strong> der<br />
Spektren mit Massfinder II oder anderen Methoden überprüft werden, ob die korrekten Massenverhältnisse<br />
gefunden werden.<br />
Die synthetischen Spektren sind an echte Messungen reduzierter Antikörper angelehnt, d.h.<br />
die verwendeten Massen entsprechen echten Glykosylierungsformen, die Hüllkurve und das<br />
Signal-zu-Rausch-Verhältnis sind ähnlich gewählt. Einzig die Adduktanzahl wurde erhöht,<br />
um die Quantifizierung zu erschweren. Auf die Erzeugung einer gerätespezifischen Basislinie<br />
74<br />
45<br />
40<br />
35<br />
30<br />
25<br />
20<br />
15<br />
10<br />
5<br />
180<br />
160<br />
140<br />
120<br />
100<br />
80<br />
60<br />
40<br />
20<br />
0<br />
Are a-Unde r-Curv e - StdErr: 25,8%<br />
0<br />
0 9 18 27 36 45 54 63 72 81 90 99 108 117 126 135 144 153 162 171 180 189 198<br />
Area-Unde-Curve - StdErr: 2,52%<br />
90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110<br />
Abb. 5.1.3: Histogramm der Fläche der gefundenen<br />
Hüllkurven. Der Wert 100 entspricht der tatsächlichen<br />
Fläche. Ist die Zahl größer 100, so beschreibt<br />
die gefundene Hüllkurve eine größere Fläche als die<br />
Tatsächliche. Entsprechend umgekehrt verhält es<br />
sich, wenn die Zahl kleiner 100 ist. Oben ist die MC<br />
Simulation für den Grenzfall dargestellt, bei dir die<br />
Standardabweichung 26% beträgt und unten ist der<br />
Normalfall gegeben, bei dem ausreichend viele<br />
Punkte zum Fitten vorhanden sind. Hier beträgt die<br />
Standardabweichung nur noch 2,52%.
wird verzichtet, weil auch ohne sie ein Vergleich der Quantifizierungsmethoden durchführbar<br />
ist, d.h. falls eine Basislinie in den synthetischen Spektren vorhanden ist, so stammt diese allein<br />
<strong>von</strong> den Addukten der zur Synthese verwendeten Massen sowie vom hinzugefügten<br />
Grundrauschen.<br />
Um ein künstliches Spektrum zu erzeugen muss für jede Masse eine Peakserie für den betrachteten<br />
m/z-Bereich erzeugt werden. Ferner wird die Hüllkurve der Peakserie generiert.<br />
Anschließend wird die Intensität der Peakserie angepasst, indem sie mit dem festgelegten<br />
Massenanteil multipliziert wird. Sind alle Peakserien der Massen erzeugt, werden sie moduliert<br />
(Faltung der Peakserien), so dass ein Spektrum entsteht. Im letzten Schritt wird das generierte<br />
Spektrum mit einem Gauß-Rauschen versehen.<br />
Auf die exakte Berechnung der Peakform wird verzichtet, weil sich die Isotopenverteilung bei<br />
großen Molekülen einer Gauß-Kurve nähert. Folglich werden die Peaks mit einer Gauß-<br />
Funktion erzeugt. Die beiden Parameter Mittelpunkt und Amplitude der Gaußfunktion sind<br />
direkt gegeben. Ersterer entspricht dem m/z-Verhältnis und letzterer der Intensität I(z) der<br />
Hüllkurve am entsprechenden Ladungszustand. Der Wert für den Parameter Halbwertsbreite<br />
wurde empirisch auf 0,19D festgelegt. Die <strong>von</strong> dem m/z-Verhältnis abhängige Peakverbreiterung<br />
wird nicht simuliert, da sie für die Simulation nicht weiter <strong>von</strong> Belang ist.<br />
Für die Berechnung der Hüllkurve werden Gauß-Funktionen als Basisfunktionen verwendet.<br />
Die Hüllkurve der leichten Kette wird abhängig vom simulierten Spektrum mit einer oder<br />
zwei Basisfunktionen erzeugt. Für die schwere Kette werden durchweg zwei Basisfunktionen<br />
verwendet. Innerhalb eines Spektrums sind die Hüllkurven für alle Varianten der schweren<br />
bzw. leichten Kette identisch. Die Parameter zur Erzeugung der künstlichen Spektren sind in<br />
Tab. 5.2.1 zusammengetragen.<br />
Für jede Masse werden 44 Adduktsignale erzeugt. Dabei ist die Wahrscheinlichkeit für die<br />
Bildung eines Addukts auf P(Addukt)=0,21 gesetzt. Die Wahrscheinlichkeit, dass sich n Addukte<br />
anlagern, ist P(Addukt) n .<br />
75
Die Auswertung der Spektren findet statt<br />
76<br />
Molekül Basisfunktion Amplitude Mittelpunkt Sigma<br />
Maximale<br />
Intensität<br />
AK1<br />
2,5% Noise<br />
LK<br />
B1(z)<br />
B2(z)<br />
0,84<br />
0,16<br />
26,00<br />
16,49<br />
3,55<br />
1,61<br />
25316<br />
SK<br />
B1(z)<br />
B2(z)<br />
0,34<br />
0,66<br />
40,00<br />
56,92<br />
4,96<br />
6,59<br />
16418<br />
AK2, AK8<br />
5% Noise<br />
LK<br />
B1(z)<br />
B2(z)<br />
0,92<br />
0,09<br />
17,30<br />
13,50<br />
1,15<br />
0,99<br />
40000<br />
SK<br />
B1(z)<br />
B2(z)<br />
0,87<br />
0,13<br />
36,64<br />
35,19<br />
3,28<br />
7,00<br />
54054<br />
AK3<br />
2,5% noise<br />
LK<br />
B1(z)<br />
B2(z)<br />
0,24<br />
0,76<br />
18,98<br />
26,88<br />
1,89<br />
2,69<br />
25000<br />
SK<br />
B1(z)<br />
B2(z)<br />
0,44<br />
0,56<br />
51,44<br />
36,40<br />
5,13<br />
5,09<br />
4167<br />
AK4, AK9<br />
2,5% noise<br />
LK<br />
B1(z)<br />
B2(z)<br />
0,33<br />
0,67<br />
17,70<br />
27,13<br />
1,57<br />
3,30<br />
14300<br />
SK<br />
B1(z)<br />
B2(z)<br />
0,26<br />
0,74<br />
36,64<br />
57,29<br />
7,00<br />
6,62<br />
5600<br />
AK5<br />
10% noise<br />
LK<br />
B1(z)<br />
---<br />
1,00<br />
---<br />
21,94<br />
---<br />
4,21<br />
---<br />
333<br />
SK<br />
B1(z)<br />
B2(z)<br />
0,39<br />
0,61<br />
44,03<br />
58,59<br />
6,99<br />
6,99<br />
300<br />
AK6<br />
30% noise<br />
LK<br />
B1(z)<br />
---<br />
1,00<br />
---<br />
20,59<br />
---<br />
4,63<br />
---<br />
57<br />
SK<br />
B1(z)<br />
B2(z)<br />
0,57<br />
0,43<br />
41,02<br />
57,18<br />
6,89<br />
5,96<br />
50<br />
AK7<br />
2,5% noise<br />
LK<br />
---<br />
---<br />
---<br />
---<br />
---<br />
---<br />
---<br />
---<br />
---<br />
SK<br />
B1(z)<br />
B2(z)<br />
0,25<br />
0,75<br />
30,08<br />
43,29<br />
4,85<br />
5,35<br />
18750<br />
• manuell (per Hand mit Lineal),<br />
• mit der In-House Entwicklung,<br />
• mit dem MaxEnt-Algorithmus.<br />
• und mit Massfinder II.<br />
Tab. 5.2.1: Die<br />
Tabelle gibt die<br />
Daten, welche<br />
zur Erzeugung<br />
der Hüllkurven<br />
verwendet wurden,<br />
wieder.<br />
Bei der <strong>Analyse</strong> mit Massfinder II werden drei Quantifizierungsarten (QA) betrachtet:<br />
• QA1: Die Peakauswahl entspricht der zweiten Variante aus Kap. 3.1 (Schnittmenge).<br />
Die Hüllkurve wird nicht bestimmt, d.h. als Intensität wird die Intensität des<br />
Spektrums an entsprechender Stelle verwendet.<br />
• QA2: Die Peakauswahl entspricht der dritten Variante aus Kap. 3.1 (Schnittmenge<br />
& nicht überlappend). Auch hier wird die Hüllkurve nicht bestimmt.<br />
• QA3: Die Peakauswahl entspricht der vierten Variante aus Kap. 3.1 (alle). Die Hüllkurve<br />
wird durch Fitting bestimmt.<br />
Diese drei Varianten werden einmal direkt auf das Spektrum angewendet und einmal nachdem<br />
die Basislinie mit einer der drei vorgestellten Methoden entfernt wurde. Es werden also drei<br />
Arten mit vier Methoden des Basislinienabzugs getestet, somit werden insgesamt 12 Möglichkeiten<br />
der Quantifizierung durchleuchtet.<br />
Da die <strong>Analyse</strong> bei allen Methoden manuelle Schritte enthält, welche Zeit kosten, wurde die<br />
Untersuchung auf 9 synthetische Spektren beschränkt. Diese Anzahl ist für eine umfassende
Bewertung zwar zu gering, jedoch gibt sie bereits eine Aussage darüber, in welchem Rahmen<br />
sich die betrachteten Verfahren bewegen. Um die Methoden besser vergleichen zu können,<br />
wird neben den ermittelten Verhältnissen auch die Standardabweichung zur Referenz angegeben.<br />
Die detaillierten Ergebnisse der Simulation sind in Anhang A zu finden.<br />
Die Entwickler des „Maximum Entropie“-Algorithmus schreiben, dass die Ergebnisse, welche<br />
aus der Entfaltung eines Spektrums stammen, nicht zur Quantifizierung verwendet werden<br />
sollten, weil der Entropieprozess einen Bias durch seine Nichtlinearität hineinbringt [Reinhold92],<br />
d.h. die <strong>von</strong> MaxEnt gefundenen Intensitäten sind nicht proportional zu den Intensitäten<br />
im gemessenen Spektrum. In [Schmieder97] ist außerdem zu lesen, dass der Fehler zum<br />
einen durch das Spektrum selber und zum anderen durch die zur Entfaltung verwendeten Parameter<br />
stark beeinflusst wird. Vermutlich ist wegen dieser zwei äußeren Faktoren in der Literatur<br />
keine Aussage darüber zu finden, in welchem Rahmen sich der Quantifizierungsfehler<br />
bei MaxEnt befindet. Dies hat dazu bewegt, auch den MaxEnt-Algorithmus mit in die Auswertung<br />
einzubeziehen.<br />
Im Folgenden werden die Ergebnisse jeder Quantifizierungsmethode diskutiert. Zum besseren<br />
Verständnis der Diskussion werden die Daten aus Anhang A als Diagramme aufbereitet. Auf<br />
der x-Achse der Diagramme sind alle Massen welche zur Synthese der Spektren verwendet<br />
wurden aufgetragen und zwar geordnet nach deren jeweiligen Anteil am Spektrum. Auf der y-<br />
Achse befindet sich der Quotient aus ermittelter Quantität und dem Erwartungswert (Referenz-Quantität).<br />
Man erhält also für jede Methode ein Streudiagramm, welches die Informationen<br />
aller Experimente kapselt. Im Idealfall (d.h. jeder Massenanteil wurde richtig vorhergesagt)<br />
sollte man eine Gerade sehen, welche auf 100% liegt. Ist eine Masse überbewertet, d.h.<br />
es wird mehr Anteil am Spektrum vorhergesagt, so ist der Wert an entsprechender Stelle größer<br />
100%. Analog dazu ist bei einer Unterbewertung der Wert kleiner 100%. Um die Tendenzen<br />
besser zu erkennen, werden die Punkte durch Linien verbunden. Damit unterbewertete<br />
Massen nicht bevorzugt dargestellt werden, wird die y-Skala logarithmiert.<br />
Die Resultate der Simulation zeigen, dass der MaxEnt-Algorithmus im Schnitt eine geringe<br />
Standardabweichung aufweist (Tab. 5.2.2). Betrachtet man das Streudiagramm (vgl. Abb.<br />
5.2.1) <strong>von</strong> MaxEnt, so sieht man, dass für Quantitäten unter 10% eine große Streuung in der<br />
Genauigkeit herrscht. Teilweise wird sogar die tatsächliche Quantität um das 6fache überbewertet.<br />
Ab einem Massenanteil <strong>von</strong> mehr als 10% lässt sich der MaxEnt-Algorithmus gut für<br />
die Quantifizierung verwenden. Offensichtlich eignet sich MaxEnt für die Quantifizierung der<br />
hier untersuchten Problemklasse. Ob diese Aussage auch für Spektren anderer <strong>Protein</strong>e zutrifft,<br />
wurde nicht untersucht.<br />
77
Bei der manuellen Quantifizierung gab es Schwierigkeiten bei den Spektren AK5 und AK6.<br />
Das schlechte Signal-zu-Rausch-Verhältnis hat eine Messung per Hand ausgeschlossen. Für<br />
alle anderen Spektren wurde die Quantifizierung durchgeführt und die erhaltenen Werte liegen<br />
sehr nahe an der Referenz.<br />
78<br />
1000%<br />
10%<br />
1000%<br />
10%<br />
Abb. 5.2.2: Quantifizierungsvarianz eines Laboranten.<br />
MaxEnt<br />
100%<br />
0% 10% 20% 30% 40% 50% 60% 70% 80% 90%<br />
Abb. 5.2.1: Quantifizierungsvarianz <strong>von</strong> MaxEnt<br />
Manuell<br />
100%<br />
0% 10% 20% 30% 40% 50% 60% 70% 80% 90%
Die Standardabweichung ist bei der manuellen Bewertung nie höher als 2,5% und im Schnitt<br />
liegt sie bei 1,4% (vgl. Tab. 5.2.2). Ein Blick auf das Streudiagramm in Abb. 5.2.2 zeigt, dass<br />
auch bei der manuellen Messung, Massen mit einem geringen Anteil am Spektrum (kleiner<br />
10%) schwer zu quantifizieren sind. Die Streuung ist aber halb so groß wie bei MaxEnt.<br />
Das In-House entwickelte Quantifizierungsprogramm, welches über die 4. Ableitung quantifiziert,<br />
schneidet bei der Auswertung mit am schlechtesten ab. Dies hat überrascht, wo doch die<br />
gleichen Peaks für die Quantifizierung verwendet wurden wie bei QA2. Beim Betrachten <strong>von</strong><br />
Abb. 5.2.3 fällt außerdem auf, dass die Messungen verfälscht sind. Massen mit einem geringem<br />
Anteil am Spektrum werden überbewertet und Massen mit einem hohen Anteil werden<br />
unterbewertet. Ob das Programm nun tatsächlich schlechter quantifiziert oder das Ergebnis<br />
durch falsche Programmparameter verfälscht wurde, konnte nicht geklärt werden. An dieser<br />
Stelle besteht noch Klärungsbedarf.<br />
1000%<br />
In-House Entwicklung<br />
100%<br />
0% 10% 20% 30% 40% 50% 60% 70% 80% 90%<br />
10%<br />
Abb. 5.2.3: Quantifizierungsvarianz der In-House Entwicklung.<br />
Nachdem die Quantifizierung mit MaxEnt, mit der Hand und mit der In-House Entwicklung<br />
betrachtet wurde, werden im Folgenden die verschiedenen Quantifizierungswege <strong>von</strong> Massfinder<br />
II betrachtet.<br />
In Abb. 5.2.4 ist das Resultat abgebildet, welches man erhält, wenn die Basislinie nicht abgezogen<br />
wird. Unabhängig <strong>von</strong> der Quantifizierungsart, lässt sich ein starker Bias beobachten,<br />
der sich analog zur In-House Entwicklung verhält. Ebenso lässt sich auch hier bei ca. 10% die<br />
Stelle finden, bei der ein Qualitätssprung stattfindet. Innerhalb dieser Gruppe schneidet QA3<br />
(Bestimmung der Hüllkurve) v.a. im Bereich unter 10% am besten ab.<br />
79
Ein ähnliches Bild bietet sich, wenn die Basislinie mit einem Spline abgezogen wird (vgl.<br />
Abb. 5.2.5). Hier wird zwar die Stärke des Bias abgeschwächt, jedoch bleibt die Tendenz des<br />
Bias die gleiche wie bei nicht abgezogener Basislinie. Der Abzug der Basislinie mit dieser<br />
Methode ist demnach nicht empfehlenswert, da es den Bias nur geringfügig korrigiert.<br />
80<br />
1000%<br />
1000%<br />
10%<br />
Basislinie: nicht abgezogen<br />
100%<br />
0% 10% 20% 30% 40% 50% 60% 70% 80% 90%<br />
10%<br />
Abb. 5.2.4: Quantifizierungsvarianz <strong>von</strong> MF II bei nicht abgezogener Basislinie.<br />
Basislinie: Spline<br />
100%<br />
0% 10% 20% 30% 40% 50% 60% 70% 80% 90%<br />
Abb. 5.2.5: Quantifizierungsvarianz <strong>von</strong> MF II bei Abzug der Basislinie mittels Spline-Interpolation.<br />
QA1<br />
QA2<br />
QA3<br />
QA1<br />
QA2<br />
QA3
Als nächstes werden die Ergebnisse nach Elimination der Basislinie mittels 4. Ableitung betrachtet<br />
(vgl. Abb. 5.2.6). Mit diesem Ansatz ist kein Bias mehr zu beobachten. Somit kann<br />
man diese Methode für die Quantifizierung heranziehen, jedoch gilt auch hier, dass die Güte<br />
der Vorhersage bei einem Massenanteil <strong>von</strong> unter 10% stark abnimmt. QA2 und insbesondere<br />
QA3 erreichen in diesem Grenzbereich bessere Ergebnisse als QA1.<br />
1000%<br />
Basislinie: 4. Ableitung<br />
100%<br />
0% 10% 20% 30% 40% 50% 60% 70% 80% 90%<br />
10%<br />
Abb. 5.2.6: Quantifizierungsvarianz <strong>von</strong> MF II bei entfernen der Basislinie mittels 4. Ableitung.<br />
Als letzte Methode wird der Abzug der Basislinie mit dem „Tal-zu-Tal“-Verfahren betrachtet<br />
(vgl. Abb. 5.2.7). In Kap. 3.3.1 wurde gezeigt, dass mit dieser Variante u.U. zuviel vom Signal<br />
abgezogen wird. Solche Fälle treten auf, wenn Peaks sehr nahe neben anderen Peaks liegen,<br />
so dass die Basislinie zuviel wegschneidet (vgl. Abb. 3.3.1.1). Dadurch, dass bei manchen<br />
Peaks mehr Signal als bei anderen abgeschnitten wird, wird ein starkes Rauschen in der<br />
Hüllkurve generiert. Die direkte Folge ist, dass ein Fitting der Hüllkurve bei zu starkem Rauschen<br />
nicht gut gelingen kann. Dies ist wahrscheinlich der Hauptgrund dafür, dass QA3<br />
manchmal schlechter abschneidet als QA2. Trotz aller Kritik an der „Tal-zu-Tal“-Variante<br />
und den offensichtlichen Schwächen, zeigt die Auswertung, dass man mit dieser Variante mit<br />
die besten Ergebnisse erzielt. Evt. gleichen sich die beim Basislinienabzug gemachten Fehler<br />
beim Betrachten mehrerer Peaks wieder aus, so dass das Ergebnis am Ende wieder stimmt. Ob<br />
dies wirklich die Ursache ist, bleibt aber offen. Hierzu sind genauere Untersuchungen notwendig.<br />
Für die verschiedenen Arten des Basislinienabzugs lässt sich zusammenfassend sagen, dass<br />
die Ergebnisse durchweg besser sind, wenn die Basislinie abgezogen wird. Ferner ist bei Massenanteilen<br />
unter 10% nur mit den Methoden „Tal-zu-Tal“ bzw. „4. Ableitung“ in Kombination<br />
mit QA3 noch eine halbwegs vernünftige Aussage durchführbar.<br />
QA1<br />
QA2<br />
QA3<br />
81
Die Daten aus Anhang A sind in Tabelle 5.2.2 zusammengefasst worden. Dabei sieht man,<br />
dass die Quantifizierung per Hand, mit MaxEnt sowie mit QA3 über die 4. Ableitung die besten<br />
Ergebnisse liefern. Die Tatsache, dass sich mit den hier entwickelten Methoden selbst<br />
schwierige Spektren wie AK5 und AK6 quantifizieren lassen, spricht für die Robustheit <strong>von</strong><br />
Massfinder II.<br />
MaxEnt hat durch seine Genauigkeit für diese Problemklasse überrascht, wo doch die allgemeine<br />
Meinung kursiert, dass es für die Quantifizierung nicht geeignet ist. Die Tatsache, dass<br />
es sich beim MaxEnt-Algorithmus um ein Black-Box-System handelt, spricht allerdings gegen<br />
dessen Verwendung, denn man kann sich nie wirklich sicher sein, ob ein Fehler nun auftritt<br />
oder nicht.<br />
82<br />
1000%<br />
100%<br />
10%<br />
1%<br />
Abb. 5.2.7: Quantifizierungsvarianz <strong>von</strong> MF II bei Abzug der Basislinie mit dem Tal zu Tal verfahren.<br />
Basislinie:<br />
nicht<br />
abgezogen<br />
Basislinie:<br />
Tal zu Tal<br />
Manuell<br />
MaxEnt<br />
In-House Lösung<br />
1,4%<br />
1,5%<br />
5,2%<br />
Basislinie: Tal zu Tal<br />
0% 10% 20% 30% 40% 50% 60% 70% 80% 90%<br />
QA1 5,1% QA1 4,8%<br />
Basislinie:<br />
QA2 3,8% QA2 3,9%<br />
Spline<br />
QA3 3,2% QA3 2,7%<br />
QA1 2,5% QA1 2,7%<br />
Basislinie: 4.<br />
QA2 1,3% QA2 2,0%<br />
Ableitung<br />
QA3 1,6% QA3 1,3%<br />
QA1<br />
QA2<br />
QA3<br />
Tabelle 5.2.2: Zusammenfassung<br />
der Validierung.<br />
Es sind die durchschnittlichenStandardabweichungenangegeben.<br />
Es sind nur diejenigen<br />
Datensätze verwendet,<br />
bei denen alle Methoden<br />
ein Ergebnis geliefert<br />
haben.
Vergleicht man die drei Quantifizierungsarten <strong>von</strong> Massfinder II miteinander, so stellt man<br />
fest, dass die QA1 am schlechtesten abschneidet. Der Grund liegt daran, dass überlappende<br />
Peaks mit in die Quantifizierung einbezogen werden und das Ergebnis dadurch verfälscht<br />
wird. Als zweitbeste Methode hat sich die QA2 herauskristallisiert. Diese betrachtet nur diejenigen<br />
Peaks, welche nicht durch andere überlagert sind. Die dritte Methode, QA3, ist ähnlich<br />
gut wie QA2. Bei QA3 werden alle Peaks zur Quantifizierung herangezogen, jedoch wird<br />
die Hüllkurve durch ein Fitting bestimmt. Der mögliche Grund, warum QA2 und QA3 ähnliche<br />
Werte liefern, ist folgender: Bei den synthetischen Spektren kommen nicht viele Fälle vor,<br />
bei denen, wie in Abb. 3.6.4.2 gezeigt, nicht erfasste Addukt-Signale der leichten Kette mit<br />
Signalen der schweren Kette überlappen. Deswegen bringt das Fitting der Hüllkurve keine<br />
bzw. kaum Verbesserung an dieser Stelle. Wenn aber die Ergebnisse <strong>von</strong> QA2 und QA3 signifikant<br />
abweichen, dann ist QA3 besser positioniert.<br />
5.3. Experimentelle Resultate<br />
In den letzten Kapiteln wurde anhand künstlicher Daten gezeigt, wie zuverlässig die konzipierten<br />
Methoden tatsächlich sind. Die Monte-Carlo-Simulation hat gezeigt, dass das Fitting<br />
der Hüllkurve auch mit schlechten Daten noch gut durchführbar ist. Die Untersuchung der<br />
kompletten Quantifizierungspipeline hat das Bild weiter bestätigt. Die besten Methoden <strong>von</strong><br />
Massfinder II sind mit ca. 1,5% Standardabweichung sehr nahe an der Realität. Selbst durch<br />
starkes Rauschen bzw. durch Peaküberlagerung charakterisierte Spektren lassen sich mit<br />
Massfinder II im Gegensatz zur manuellen Methode noch gut quantifizieren.<br />
Nach der Validierung anhand künstlicher Daten wurden empirische Daten betrachtet. Die eingesetzten<br />
<strong>Analyse</strong>methoden sind die gleichen wie bei der Simulation: Massfinder II, manuell,<br />
In-House Lösung und MaxEnt. Als Untersuchungsmaterial standen 11 Spektren zur Verfügung.<br />
Die Ergebnisse der Quantifizierung sind in Anhang B dargestellt. Als Hinweis sei erwähnt,<br />
dass in manchen Fällen QA1 und QA2 gleiche Massenverhältnisse liefern. Das liegt<br />
daran, dass bei QA2 keine Überlappungen mit anderen Peaks gefunden werden, und somit<br />
dieselben Ladungszustände wie bei QA1 zum Quantifizieren verwendet werden.<br />
Die Schwierigkeit bei diesen und anderen empirischen Daten besteht darin, dass es keine Referenzmethode<br />
gibt. Folglich kann man bei dem durchgeführten Vergleich nur feststellen, ob<br />
die Methoden im selben Rahmen bleiben oder nicht. Eine Aussage darüber, welche Methode<br />
die bessere ist, kann nicht getroffen werden.<br />
83
Ebenso wie bei der Simulation präsentiert sich auch bei den empirischen Daten das gleiche<br />
Bild: Ist die Basislinie abgezogen, so sind die Werte näher an denen der anderen Methoden.<br />
Außerdem liegt QA1 i.d.R. am weitesten <strong>von</strong> den anderen Messungen entfernt.<br />
Bei den Spektren AK2 und AK3 handelt es sich um die gleichen Messungen. Der Unterschied<br />
liegt in der Signalqualität. Während AK3 die Summe vieler Messungen ist, ist AK2 das Ergebnis<br />
nur einer Messung. Folglich ist bei AK2 der Rauschanteil mit ca. 20% sehr groß, während<br />
bei AK3 das Rauschen unter 2% beträgt. Dies ermöglicht eine Beurteilung der Robustheit<br />
anhand empirischer Spektren. So sieht man beim Vergleich jeder Messung zwischen<br />
AK2 und AK3, dass die Werte sehr ähnlich sind, unabhängig <strong>von</strong> dem Rauschanteil. Die Verfahren<br />
können also auch mit schlechten Daten gut umgehen.<br />
Eine genaue <strong>Analyse</strong>, welche beurteilen kann warum ein Verfahren für eine Masse mehr oder<br />
weniger Anteil vorhersagt als die anderen muss noch durchgeführt werden. Offensichtlich hat<br />
aber der Abzug der Basislinie eine große Auswirkung auf das Ergebnis, wie man beim Betrachten<br />
der synthetischen bzw. der empirischen Spektren sieht. Das Problem bei der Basislinie<br />
ist, dass es fremdes Signal enthält, man aber nie weiß ob man in jedem Bereich des Spektrums<br />
richtig abzieht. Es kann sein dass zuviel oder zuwenig vom Spektrum abgezogen wird.<br />
Für eine genauere Untersuchung könnte man Proben mit einer dritten unabhängigen (z.B.<br />
chemischen) Methode quantifizieren und anschließend eine ESI-MS-Aufnahme da<strong>von</strong> durchführen.<br />
Dies würde es ermöglichen den Einfluss der Basislinie zu erkennen bzw. in Zahlen zu<br />
beziffern. Hat man einmal die verschiedenen Formen und Anteile der Basislinie am Spektrum<br />
erfasst, könnte man in einem nächsten Schritt bei der Erzeugung synthetischer Spektren ähnliche<br />
Basislinien dazuaddieren um anschließend eine detaillierte <strong>Analyse</strong> zu tätigen. Zur Klarstellung<br />
sei hier nochmals erwähnt, dass bei den hier erzeugten künstlichen Spektren keine<br />
Basislinie dazuaddiert wurde. Wenn eine schwach-intensive Basislinie vorhanden war, dann<br />
stammt diese allein <strong>von</strong> Adduktsignalen. Echte Spektren weisen i.d.R weitaus stärkere Basislinienanteile<br />
auf.<br />
84
6. Zusammenfassung und Ausblick<br />
Dank der ESI-MS-Technologie ist man heute in der Lage, große Biomoleküle als Ganzes zu<br />
analysieren. Ein besonders wichtiger Aspekt der ESI-MS ist die <strong>Analyse</strong> der Glykosylierungsprofile<br />
<strong>von</strong> Antikörpern und anderen <strong>Protein</strong>en, weil diese maßgeblich deren Funktion<br />
determinieren. Für die medizinische Therapeutik ist es deshalb <strong>von</strong> großer Relevanz, zu wissen,<br />
in welchem Verhältnis verschiedene Glykovarianten eines <strong>Protein</strong>s stehen. Die Bestimmung<br />
dieser Quantitäten direkt aus dem Spektrum ist keine triviale Aufgabe, weil Peakhöhen<br />
und Formen durch Überlagerung mit anderen Peaks verfälscht werden. Sie verlieren ihre<br />
Gauß-Form, sie bekommen Schultern, Sättel, etc. Vorhandene Softwareprodukte lösen dieses<br />
Problem nur unbefriedigend, weshalb eine Neuentwicklung gewünscht war.<br />
Mit Massfinder II wurde das ursprünglich für die qualitative <strong>Analyse</strong> <strong>von</strong> Antikörper ESI-MS<br />
Spektren entwickelte Programm um Methoden für eine quantitative <strong>Analyse</strong> erweitert. Neben<br />
der Möglichkeit, eine manuelle Quantifizierung der Spektren durchzuführen, wurden robuste<br />
Methoden für eine weitestgehend automatisierte Quantifizierung implementiert. Die softwaretechnische<br />
Umsetzung wurde mittels Tcl/Tk und ANSI-C vollzogen, wobei Tcl/Tk für die<br />
Präsentationsschicht verwendet wird und ANSI-C für die darunter liegenden Logikschichten.<br />
Basierend auf Monte-Carlo-Simulationen wurde eine Aussage über die Güte der entwickelten<br />
Verfahren gemacht. Die einfache Variante QA1 hat sich als die schlechteste erwiesen. Mit<br />
dem weitestgehend automatisierten Verfahren QA2 lassen sich nach Abzug der Basislinie gute<br />
Ergebnisse erzielen. Für noch präzisere Ergebnisse muss QA3 angewendet werden – diese<br />
ist jedoch mit einem erhöhten Zeitaufwand verbunden, weil das Hüllkurven-Fitting für jede<br />
Masse einzeln betrachtet werden muss. Bei der Wahl einer geeigneten Methode für die Elimination<br />
der Basislinie ist die Variante „4. Ableitung“ zu empfehlen.<br />
Als Schlussfolgerung der Validierung kann man festhalten, dass das Ziel erreicht wurde Verfahren<br />
zu entwickeln, welche ähnlich gute Ergebnisse liefern, wie die durch „erfahrene“ Laboranten<br />
durchgeführte manuelle Quantifizierung. Dies hat drei Konsequenzen: die Quantifizierung<br />
lässt sich schneller durchführen, schlechte Spektren lassen sich dank der Robustheit der<br />
Verfahren auch noch gut quantifizieren und zum anderen können mit Massfinder II auch<br />
„unerfahrene“ Laboranten reproduzierbare Ergebnisse liefern. Neben den automatisierten Prozessen<br />
wird auch die manuelle Quantifizierung im Programm zur Verfügung gestellt, so dass<br />
Fälle bei denen die Automatik nur unzureichende Ergebnisse liefert noch behandelt werden<br />
können. Massfinder I und II wurden zwar im Hinblick auf Antikörper entwickelt, jedoch lassen<br />
sich die Module „Qualitative <strong>Analyse</strong>“ und „<strong>Quantitative</strong> <strong>Analyse</strong>“ auch für andere Biomoleküle<br />
verwenden, was Massfinder II zu einem flexiblen Werkzeug in der Analytik macht.<br />
85
Im Hinblick auf die technische Umsetzung gibt es noch Möglichkeiten zur Verbesserung. So<br />
ließe sich auf Kosten der Transparenz der Quantifizierungsprozess noch weiter beschleunigen,<br />
indem separate Schritte zusammengefasst werden. Gemeint sind der Abzug der Basislinie, die<br />
Auswahl der Ladungszustände und die Quantifizierung an sich.<br />
Ist eine Funktionserweiterung für Massfinder II vorgesehen, so empfiehlt sich auch ein Wechsel<br />
der GUI-Plattform. Mit der Skriptsprache Tcl/Tk bewegt man sich hier mit über 10.000<br />
Zeilen Code bereits an den Grenzen des Machbaren. Aufgrund der Tatsache, dass die Sprache<br />
nicht typisiert ist, sind unvorhersehbare Laufzeitfehler vorprogrammiert. Es kann nicht jedes<br />
Szenario überprüft werden, weil die möglichen Kombinationen der Userinteraktion mit der<br />
Programmoberfläche nahezu unbegrenzt sind. Für eine solidere Grundlage bedarf es einer<br />
besser strukturierten Programmiersprache, die typisiert ist und zur Compile-Zeit bereits einen<br />
Großteil der Fehler abfängt. Da die GUI und die Logik in dem jetzigen Zustand bereits stark<br />
getrennt sind, lässt sich ein Wechsel auf eine andere Plattform für die Sicht mit verhältnismäßig<br />
wenig Aufwand durchführen. Als Alternative zu Tcl/Tk käme C/C++, C# oder Java in<br />
Frage, wobei Java die Ideologie der Betriebssystem-Unabhängigkeit am besten umsetzen<br />
würde.<br />
Bei der Methodik besteht an manchen Stellen noch Raum für Optimierung. So könnte man im<br />
Falle <strong>von</strong> Antikörpern die Quantifizierung auf den mittleren Ladungszustand beschränken,<br />
welcher am besten ausgeprägt ist. Die Randbereiche weisen meistens eine geringe Intensität<br />
auf und lassen sich aufgrund dessen durch Störfaktoren leichter beeinflussen und dadurch<br />
leichter verfälschen. Das Prinzip, dass ähnliche Spezien eine ähnliche Ladungsverteilung haben,<br />
könnte man für die bessere Bestimmung der Hüllkurve anwenden: Die Spektren weisen<br />
i.d.R. eine Hauptspezies auf, die gut repräsentiert ist. Für diese ist die Bestimmung der Hüllkurve<br />
meistens problemlos möglich. Die so gewonnen Parameter der Basisfunktionen könnten<br />
bis auf die Amplitude für Varianten der Hauptspezies wieder verwendet werden. D.h. die Parameter<br />
Mittelpunkt und Halbwertsbreite werden <strong>von</strong> der Hauptspezies übernommen und<br />
festgehalten. Das Fitting wird auf die Amplitude als freien Parameter beschränkt.<br />
Ein gänzlich anderer Ansatz für die Quantifizierung wäre es, den MaxEnt-Algorithmus hierzu<br />
zu verwenden. Die Schwierigkeit besteht darin, die Nichtlinearität des Algorithmus zu korrigieren.<br />
In [Schmieder97] wurde für NMR-Spektren bereits ein solcher Korrektur-<br />
Mechanismus entwickelt. Ob für ESI-Spektren auch die Möglichkeit besteht, die Nichtlinearität<br />
des MaxEnt Algorithmus zu korrigieren, muss untersucht werden. Eine interessante Möglichkeit<br />
wäre dies auf jeden Fall, weil dadurch eine komplette Automatisierung des Quantifizierungsprozess<br />
möglich wäre und trotzdem noch gute Ergebnisse erzielt werden.<br />
86
Anhang<br />
A. Quantifizierungsergebnisse synthetischer Spektren<br />
Ergebnisse des Vergleichs zwischen verschiedenen Quantifizierungsarten anhand synthetischer<br />
Spektren. Die Referenz entspricht den tatsächlichen Werten. Die grauen Prozentzahlen<br />
entsprechen den <strong>von</strong> den jeweiligen Methoden gefundenen Verhältnissen. Die blauen Zahlen<br />
geben die Standardabweichung zur Referenz wieder. Bei manchen Datensätzen war eine<br />
Quantifizierung mit der entsprechenden Methode nicht möglich. Bei QA2 liegt das daran, dass<br />
keine nicht überlappenden Peaks gefunden wurden. Bei der manuellen Methode hingegen<br />
liegt das am zu schlechten Signal-zu-Rausch-Verhältnis des Spektrums.<br />
Molekül Massen Referenz Manuell MaxEnt<br />
In-House<br />
Lösung<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
AK1 48801 65.1% 62.9% 62.6% 59.4% 53.2% 55.1% 56.6%<br />
(SK) 48963 10.8% 13.3% 13.7% 13.2% 14.5% 15.3% 15.1%<br />
49090 5.1% 4.4% 4.1% 6.6% 8.4% 6.7% 6.2%<br />
49123 5.8% 6.9% 6.5% 6.8% 10.2% 8.5% 8.0%<br />
48929 13.2% 12.5% 13.2% 14.0% 13.7% 14.4% 14.2%<br />
1.6% 1.8% 2.9% 6.1% 5.1% 4.4%<br />
Basislinie: Tal zu Tal<br />
Basislinie: Spline<br />
Basislinie: 4. Ableitung<br />
QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />
67.5% 70.1% 72.4% 53.8% 55.8% 57.5% 61.8% 65.6% 67.2%<br />
9.3% 10.2% 9.7% 14.4% 15.2% 15.0% 9.2% 11.2% 10.9%<br />
6.2% 3.8% 3.2% 8.2% 6.5% 5.8% 6.9% 5.0% 4.5%<br />
8.0% 5.9% 5.1% 10.0% 8.3% 7.7% 8.6% 6.1% 4.9%<br />
9.1% 10.0% 9.6% 13.6% 14.3% 14.1% 13.5% 12.2% 12.6%<br />
2.5% 2.8% 3.8% 5.8% 4.8% 4.0% 2.2% 0.6% 1.1%<br />
Molekül Massen Referenz Manuell MaxEnt<br />
In-House<br />
Lösung<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
AK1 23428 88.5% 86.4% 86.6% 83.4% 76.5% 82.4% 82.7%<br />
(LK) 23590 6.5% 7.6% 6.9% 6.3% 10.9% 8.4% 8.3%<br />
23612 2.3% 6.0% 3.8% 4.6% 8.4% 5.0% 5.0%<br />
23753 2.6% 0.0% 2.7% 5.7% 4.3% 4.3% 4.0%<br />
2.5% 1.2% 3.2% 7.1% 3.5% 3.3%<br />
Basislinie: Tal zu Tal<br />
Basislinie: Spline Basislinie: 4. Ableitung<br />
QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />
84.5% 88.3% 90.9% 77.0% 77.0% 84.4% 82.0% 85.4% 87.3%<br />
7.9% 6.2% 4.4% 10.7% 10.7% 7.2% 8.5% 5.9% 5.4%<br />
5.2% 3.0% 2.2% 8.2% 8.2% 5.3% 7.2% 5.9% 4.9%<br />
2.5% 2.6% 2.5% 4.1% 4.1% 3.0% 2.4% 2.8% 2.5%<br />
2.5% 0.4% 1.6% 6.8% 6.8% 2.5% 4.2% 2.4% 1.5%<br />
87
88<br />
Molekül Massen Referenz Manuell MaxEnt<br />
In-House<br />
Lösung<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
AK2 48765 4.7% 3.6% 3.9% 9.7% 5.6% 5.5% 4.5%<br />
49983 3.4% 3.2% 2.1% 2.8% 3.4% 3.2% 3.1%<br />
50211 29.3% 28.4% 25.8% 22.4% 24.7% 25.0% 25.2%<br />
50373 37.8% 36.4% 34.1% 29.9% 31.9% 32.2% 32.8%<br />
50414 6.1% 10.0% 13.8% 15.9% 14.2% 14.3% 14.6%<br />
50536 13.8% 12.0% 12.7% 11.5% 12.6% 12.1% 12.1%<br />
50576 5.0% 6.4% 7.6% 7.9% 7.7% 7.7% 7.7%<br />
1.9% 3.7% 5.9% 4.3% 4.3% 4.2%<br />
Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />
QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />
5.2% 5.2% 4.6% 5.6% 5.5% 4.6% 4.7% 4.9% 4.5%<br />
3.7% 3.4% 3.1% 3.5% 3.2% 3.1% 3.7% 3.2% 2.9%<br />
27.2% 27.1% 27.9% 24.6% 25.0% 25.2% 28.2% 27.2% 27.7%<br />
34.1% 34.7% 35.6% 31.8% 32.1% 32.8% 35.5% 35.5% 35.9%<br />
10.1% 10.4% 9.4% 14.3% 14.3% 14.6% 9.9% 9.9% 10.3%<br />
13.4% 12.7% 12.9% 12.6% 12.1% 12.1% 12.0% 13.0% 12.8%<br />
6.3% 6.6% 6.4% 7.7% 7.7% 7.7% 6.0% 6.3% 5.8%<br />
2.3% 2.3% 1.7% 4.4% 4.3% 4.2% 1.9% 2.0% 1.9%<br />
Molekül Massen Referenz Manuell MaxEnt<br />
In-House<br />
Lösung<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
AK3 48207 10.7% 11.2% 10.2% 5.7% 3.7% 7.9%<br />
(SK) 48296 9.7% 9.2% 5.8% 10.9% 7.3% 7.3%<br />
48334 32.5% 34.3% 28.3% 25.5% 20.5% 21.3%<br />
48387 3.4% 7.3% 3.5% 10.4% 11.4% 7.0%<br />
48426 6.6% 6.3% 7.0% 4.2% 6.5% 7.7%<br />
48455 5.3% 6.3% 4.2% 10.6% 7.0% 7.2%<br />
48472 1.6% 0.0% 2.9% 4.4% 8.7% 5.0%<br />
48510 15.5% 14.1% 18.3% 10.4% 11.9% 11.8%<br />
48541 6.6% 8.9% 10.6% 9.4% 9.1% 9.1%<br />
48560 5.7% 2.4% 6.7% 5.6% 7.5% 7.9%<br />
48599 1.3% 0.0% 1.4% 1.6% 3.8% 5.1%<br />
48688 1.2% 0.0% 1.1% 1.3% 2.6% 2.7%<br />
1.9% 2.2% 4.1% 5.4% 4.2%<br />
Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />
QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />
6.7% 12.4% 3.0% 7.6% 13.1% 11.3%<br />
7.4% 8.0% 7.2% 7.0% 8.9% 14.0%<br />
36.9% 37.3% 22.3% 25.5% 22.5% 38.2%<br />
7.9% 1.4% 11.8% 6.4% 1.0% 1.1%<br />
2.2% 4.9% 6.2% 7.2% 3.9% 4.9%<br />
2.2% 3.3% 6.8% 7.8% 5.1% 5.5%<br />
7.2% 1.1% 8.8% 3.2% 1.1% 0.9%<br />
16.4% 16.2% 12.4% 13.0% 10.3% 17.1%<br />
7.8% 8.3% 9.3% 9.3% 30.9% 4.9%<br />
3.4% 4.8% 7.4% 7.7% 1.2% 0.8%<br />
0.6% 1.2% 3.1% 4.2% 1.0% 0.7%<br />
1.3% 1.2% 1.8% 1.3% 1.1% 0.7%<br />
3.3% 1.9% 5.1% 3.0% 7.9% 2.7%
Molekül Massen Referenz Manuell MaxEnt<br />
In-House<br />
Lösung<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
AK3 24142 2.7% 1.6% 10.2% 3.1% 2.6%<br />
(LK) 24159 56.5% 41.3% 43.8% 41.5% 42.1%<br />
24181 6.2% 15.0% 15.9% 15.0% 14.9%<br />
24200 2.7% 15.8% 6.1% 13.9% 13.6%<br />
24246 25.8% 22.1% 20.5% 21.0% 21.3%<br />
24334 4.2% 3.7% 3.0% 4.3% 4.3%<br />
24424 0.8% 0.4% 0.6% 1.3% 1.2%<br />
8.4% 7.1% 8.0% 7.8%<br />
Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />
QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />
0.4% 0.4% 2.6% 2.3% 3.1% 7.4% 3.2%<br />
51.3% 51.8% 42.6% 43.2% 43.5% 40.9% 43.5%<br />
11.1% 10.6% 15.1% 14.9% 20.6% 20.3% 20.6%<br />
10.7% 10.6% 13.8% 13.7% 12.6% 13.1% 12.6%<br />
22.5% 22.7% 21.3% 21.3% 17.2% 15.6% 17.2%<br />
3.3% 3.3% 3.9% 3.9% 2.4% 2.2% 2.4%<br />
0.7% 0.6% 0.7% 0.7% 0.5% 0.5% 0.4%<br />
4.3% 4.2% 7.7% 7.5% 8.9% 9.9% 8.9%<br />
Molekül Massen Referenz Manuell MaxEnt<br />
In-House<br />
Lösung<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
AK4 49732 2.5% 3.2% 1.8% 1.7% 7.3% 5.1% 3.3%<br />
49813 4.5% 3.8% 3.7% 2.8% 9.2% 5.3% 4.8%<br />
50017 3.3% 4.8% 2.7% 13.7% 10.2% 11.6% 11.6%<br />
49960 52.0% 49.0% 52.7% 39.8% 32.0% 37.9% 40.5%<br />
50089 7.2% 6.1% 7.1% 5.9% 12.5% 8.0% 8.3%<br />
50121 22.7% 21.3% 25.1% 11.9% 17.2% 19.1% 20.9%<br />
50252 4.2% 5.1% 3.9% 19.9% 5.6% 5.8% 5.1%<br />
50279 3.6% 6.7% 3.9% 4.2% 6.1% 7.1% 5.6%<br />
1.8% 1.0% 8.8% 8.4% 6.2% 5.1%<br />
Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />
QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />
8.0% 4.0% 2.5% 7.3% 5.1% 3.3% 5.9% 2.0% 2.7%<br />
10.2% 4.7% 4.4% 9.2% 5.3% 4.8% 10.9% 21.2% 5.0%<br />
4.0% 5.1% 4.6% 10.2% 11.6% 11.4% 3.8% 1.9% 4.5%<br />
41.4% 51.1% 55.7% 32.0% 37.9% 40.6% 40.8% 40.2% 54.0%<br />
11.5% 4.2% 4.0% 12.5% 8.0% 8.3% 12.9% 8.0% 5.6%<br />
18.3% 22.1% 24.6% 17.2% 19.1% 20.9% 17.8% 19.4% 24.7%<br />
2.9% 3.3% 2.3% 5.6% 5.8% 5.1% 3.1% 3.5% 1.9%<br />
3.7% 5.5% 1.9% 6.1% 7.1% 5.6% 4.9% 3.9% 1.7%<br />
5.2% 1.6% 2.1% 8.4% 6.2% 5.0% 5.4% 7.4% 1.6%<br />
Molekül Massen Referenz Manuell<br />
MaxEnt<br />
In-House<br />
Lösung<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
AK5 50564 13.0% 12.1% 11.4% 8.8% 10.0% 9.3%<br />
50726 18.5% 25.8% 11.7% 12.7% 12.1% 12.8%<br />
50885 5.6% 8.7% 7.9% 8.5% 10.6% 9.2%<br />
50693 18.7% 18.1% 12.3% 9.6% 10.0% 10.6%<br />
50854 19.8% 20.1% 10.3% 11.2% 12.8% 11.9%<br />
51014 2.5% 0.5% 4.8% 6.4% 7.0% 6.3%<br />
51036 3.6% 2.6% 6.3% 6.7% 6.6% 7.4%<br />
51195 3.1% 2.6% 6.4% 6.6% 6.1% 6.5%<br />
51162 4.5% 3.2% 7.3% 6.9% 5.0% 6.6%<br />
51324 3.2% 1.6% 6.4% 6.4% 7.0% 6.2%<br />
49119 2.4% 1.4% 6.1% 7.6% 5.6% 6.3%<br />
49248 5.1% 3.2% 9.1% 8.8% 7.4% 6.9%<br />
2.6% 4.6% 5.1% 4.7% 4.7%<br />
89
90<br />
Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />
QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />
11.6% 17.0% 18.6% 9.1% 10.4% 10.1% 13.7% 16.4%<br />
16.6% 27.6% 20.5% 16.3% 15.7% 17.4% 17.0% 21.5%<br />
5.0% 5.4% 4.7% 8.9% 9.9% 10.2% 3.8% 5.2%<br />
9.3% 13.7% 12.1% 11.2% 13.7% 13.6% 14.9% 21.0%<br />
14.8% 17.7% 19.4% 13.1% 13.7% 14.4% 17.7% 19.3%<br />
5.0% 1.8% 3.3% 4.8% 4.4% 4.2% 1.8% 3.4%<br />
5.3% 3.9% 5.6% 5.6% 4.9% 5.3% 4.7% 3.6%<br />
5.0% 0.1% 2.9% 5.2% 6.5% 4.9% 4.5% 1.7%<br />
5.9% 5.2% 1.9% 5.7% 7.1% 5.2% 4.4% 1.3%<br />
4.8% 0.5% 2.6% 4.5% 4.6% 4.2% 3.0% 0.6%<br />
7.0% 2.2% 3.2% 6.9% 4.0% 5.0% 4.4% 0.9%<br />
9.8% 5.0% 5.3% 8.9% 5.3% 5.5% 10.1% 5.2%<br />
3.9% 3.5% 2.8% 3.9% 3.2% 2.9% 2.2% 2.0%<br />
Molekül Massen Referenz Manuell MaxEnt<br />
In-House<br />
Lösung<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
AK6 50602 70.0% 75.8% 63.6% 47.7% 48.9% 50.9%<br />
50764 25.0% 22.3% 21.6% 24.1% 24.7% 25.1%<br />
50927 3.0% 1.1% 6.4% 13.6% 13.3% 12.5%<br />
49157 2.0% 0.8% 8.3% 14.7% 13.1% 11.5%<br />
3.4% 5.1% 13.9% 13.0% 11.7%<br />
Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />
QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />
67.3% 69.3% 73.9% 61.7% 63.9% 66.0% 67.2% 70.0% 75.9%<br />
22.0% 21.4% 20.7% 23.8% 24.2% 25.4% 23.2% 22.5% 22.4%<br />
4.0% 4.0% 2.7% 5.9% 5.6% 4.4% 2.5% 1.7% 0.5%<br />
6.8% 5.3% 2.8% 8.6% 6.4% 4.2% 7.1% 5.8% 1.2%<br />
3.2% 2.5% 2.9% 5.5% 4.0% 2.4% 3.1% 2.4% 3.5%<br />
Molekül Massen Referenz Manuell MaxEnt<br />
In-House<br />
Lösung<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
AK7 35498 7.6% 7.5% 6.8% 6.2% 7.9% 7.5% 7.6%<br />
35581 11.6% 11.4% 11.1% 11.8% 11.1% 11.1% 11.2%<br />
35662 14.6% 14.4% 14.3% 14.9% 14.0% 14.2% 14.1%<br />
35743 16.3% 16.0% 16.3% 16.4% 15.8% 15.9% 15.9%<br />
35825 16.5% 16.5% 16.6% 16.5% 16.1% 16.2% 16.2%<br />
35906 14.9% 14.8% 15.2% 15.0% 14.9% 15.0% 15.0%<br />
35986 10.4% 10.9% 11.0% 11.0% 11.1% 11.1% 11.1%<br />
36063 8.2% 8.5% 8.7% 8.1% 9.2% 9.0% 8.9%<br />
0.2% 0.5% 0.6% 0.5% 0.5% 0.4%<br />
Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />
QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />
7.7% 7.4% 7.2% 7.4% 7.1% 7.1% 7.3% 7.1% 6.5%<br />
11.3% 11.4% 11.5% 11.0% 11.0% 11.0% 11.3% 11.3% 11.5%<br />
14.5% 14.6% 14.7% 14.2% 14.3% 14.3% 14.5% 14.5% 14.7%<br />
16.2% 16.3% 16.5% 16.1% 16.2% 16.3% 16.3% 16.3% 16.5%<br />
16.4% 16.5% 16.6% 16.5% 16.5% 16.6% 16.4% 16.4% 16.7%<br />
14.9% 15.0% 15.0% 15.1% 15.2% 15.2% 15.0% 15.0% 15.3%<br />
10.4% 10.6% 10.6% 10.9% 11.0% 11.0% 10.7% 10.8% 10.9%<br />
8.5% 8.2% 8.1% 8.9% 8.7% 8.7% 8.6% 8.6% 8.0%<br />
0.2% 0.1% 0.2% 0.4% 0.4% 0.4% 0.2% 0.3% 0.5%
Molekül Massen Referenz Manuell MaxEnt<br />
In-House<br />
Lösung<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
AK8 48765.2 4.7% 4.3% 4.5% 9.8% 9.6% 7.7% 6.0%<br />
49983.1 50.9% 49.7% 51.5% 41.7% 43.1% 45.2% 46.3%<br />
50210.9 22.4% 22.9% 22.4% 22.3% 20.2% 21.1% 21.3%<br />
50373.1 4.0% 4.0% 3.5% 5.9% 4.9% 4.9% 5.1%<br />
50414.4 10.0% 10.7% 10.7% 10.4% 10.8% 10.8% 10.9%<br />
50536.0 3.0% 3.0% 2.0% 5.0% 5.0% 4.0% 4.1%<br />
50576.4 5.0% 5.4% 5.4% 5.0% 6.4% 6.4% 6.5%<br />
0.6% 0.6% 4.1% 3.7% 2.6% 2.1%<br />
Basislinie: Tal zu Tal Basislinie: Spline<br />
Basislinie: 4. Ableitung<br />
QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />
7.2% 4.9% 4.6% 9.2% 7.2% 5.3% 8.0% 4.8% 5.1%<br />
48.4% 49.8% 50.8% 45.5% 47.3% 49.1% 49.3% 50.6% 51.0%<br />
21.7% 22.3% 22.8% 20.6% 21.6% 21.7% 21.7% 22.0% 22.0%<br />
3.8% 4.1% 4.1% 4.2% 4.3% 4.2% 3.7% 4.0% 4.0%<br />
10.0% 10.5% 9.8% 10.5% 10.6% 10.8% 9.8% 10.3% 10.5%<br />
4.0% 2.9% 2.5% 4.3% 3.2% 3.2% 2.6% 3.0% 2.6%<br />
5.0% 5.6% 5.3% 5.7% 5.8% 5.8% 4.9% 5.4% 4.8%<br />
1.4% 0.5% 0.3% 2.8% 1.7% 0.9% 1.4% 0.3% 0.3%<br />
Molekül Massen Referenz Manuell MaxEnt<br />
In-House<br />
Lösung<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
AK9 49732 2.5% 3.6% 1.6% 8.7% 7.4% 5.3% 3.5%<br />
49813 45.6% 45.9% 48.3% 27.3% 34.0% 35.3% 38.4%<br />
50017 7.0% 6.3% 5.9% 4.1% 8.8% 10.0% 9.8%<br />
49960 15.7% 14.6% 14.5% 10.0% 12.9% 14.8% 14.7%<br />
50089 3.5% 3.9% 3.4% 2.7% 10.5% 5.7% 5.6%<br />
50121 1.5% 4.5% 1.4% 3.5% 4.7% 4.1% 4.0%<br />
50252 4.2% 3.0% 3.0% 26.2% 5.8% 6.1% 5.3%<br />
50279 20.0% 18.2% 22.0% 17.5% 15.9% 18.8% 18.8%<br />
1.4% 1.4% 10.6% 5.5% 4.2% 3.1%<br />
Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />
QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />
7.6% 4.2% 2.5% 7.0% 4.5% 2.6% 5.2% 3.2% 1.9%<br />
43.0% 44.6% 49.5% 35.7% 37.6% 41.1% 44.5% 46.8% 50.4%<br />
5.2% 6.6% 6.6% 8.5% 9.7% 9.4% 6.2% 4.9% 6.1%<br />
11.8% 13.5% 14.8% 13.0% 15.0% 14.9% 12.2% 13.6% 17.0%<br />
10.1% 3.0% 2.7% 10.3% 5.0% 4.9% 11.3% 4.2% 3.6%<br />
1.5% 1.3% 0.8% 4.1% 3.3% 3.1% 1.1% 1.9% 1.1%<br />
3.4% 4.2% 2.8% 5.3% 5.5% 4.6% 2.1% 6.2% 1.5%<br />
17.5% 22.6% 20.4% 16.2% 19.4% 19.4% 17.4% 19.2% 18.6%<br />
3.6% 1.4% 1.5% 4.9% 3.2% 2.0% 3.4% 1.4% 2.1%<br />
91
B. Quantifizierungsergebnisse empirischer Spektren<br />
Ergebnisse der Quantifizierung <strong>von</strong> 10 Antikörper-Spektren mit verschiedenen Methoden.<br />
Moleküle, die mittels der 4. Ableitung quantifiziert wurden, sind durch das Symbol * markiert.<br />
Bei AK4 und AK5 wurden manche Massen zusammengefasst, weil diese eine gemeinsame<br />
Glykosylierungsbasis haben.<br />
Molekül Massen<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
Basislinie: Tal zu Tal<br />
QA1 QA2 QA3<br />
AK1 50116 11,1% 11,1% 11,5% 8,3% 9,7% 8,7%<br />
50278 20,0% 20,0% 22,2% 21,8% 25,7% 26,6%<br />
50440 25,5% 25,5% 25,3% 30,7% 29,5% 30,5%<br />
50601 14,9% 14,9% 14,0% 13,8% 11,7% 11,6%<br />
50762 16,9% 16,9% 16,3% 16,8% 16,7% 16,4%<br />
50909 11,7% 11,7% 10,9% 8,7% 6,8% 6,3%<br />
92<br />
Manuell /<br />
In-House<br />
MaxEnt<br />
QA1<br />
Basislinie: Spline<br />
QA2 QA3<br />
Basislinie: 4. Ableitung<br />
QA1 QA2 QA3<br />
9,5% 12,7% 9,3% 9,3% 9,7% 9,6% 12,4% 9,5%<br />
25,4% 24,2% 21,1% 21,1% 24,2% 22,8% 29,2% 29,6%<br />
29,2% 30,7% 28,5% 28,5% 28,6% 31,5% 31,3% 34,2%<br />
11,2% 13,9% 14,3% 14,3% 12,7% 12,5% 10,6% 11,0%<br />
17,3% 12,7% 16,9% 16,9% 16,4% 17,1% 9,9% 10,8%<br />
7,4% 5,8% 10,0% 10,0% 8,4% 6,5% 6,6% 4,9%<br />
Molekül Massen<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
Basislinie: Tal zu Tal<br />
QA1 QA2 QA3<br />
AK2 50602 46,7% 48,8% 50,3% 63,5% 63,6% 68,7%<br />
* 50764 23,6% 24,4% 23,7% 21,6% 23,2% 23,4%<br />
50927 14,2% 13,1% 13,1% 7,5% 7,4% 5,5%<br />
49157 15,5% 13,7% 12,9% 7,5% 5,9% 2,5%<br />
Manuell /<br />
In-House<br />
MaxEnt<br />
QA1<br />
Basislinie: Spline<br />
QA2 QA3<br />
Basislinie: 4. Ableitung<br />
QA1 QA2 QA3<br />
69,5% 83,0% 54,4% 55,9% 62,8% 58,2% 60,2% 72,3%<br />
25,5% 14,3% 23,2% 24,2% 24,8% 22,0% 23,5% 22,0%<br />
3,1% 2,5% 10,4% 9,8% 5,9% 9,9% 8,0% 3,3%<br />
2,0% 0,2% 12,1% 10,1% 6,5% 9,9% 8,3% 2,4%<br />
Molekül Massen<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
Basislinie: Tal zu Tal<br />
QA1 QA2 QA3<br />
AK3 50602 47,8% 50,0% 49,6% 63,8% 66,4% 70,6%<br />
* 50764 23,4% 24,3% 24,8% 22,3% 23,6% 24,5%<br />
50927 13,9% 12,9% 13,3% 6,6% 5,3% 3,2%<br />
49157 15,2% 12,9% 12,4% 7,3% 4,7% 1,7%<br />
Manuell /<br />
In-House<br />
MaxEnt<br />
QA1<br />
Basislinie: Spline<br />
QA2 QA3<br />
Basislinie: 4. Ableitung<br />
QA1 QA2 QA3<br />
69,5% 83,0% 56,1% 58,9% 61,8% 64,6% 65,8% 74,3%<br />
25,5% 14,3% 22,8% 24,2% 24,2% 20,7% 24,2% 23,7%<br />
3,1% 2,5% 9,7% 8,7% 7,6% 6,2% 5,2% 0,9%<br />
2,0% 0,2% 11,4% 8,2% 6,4% 8,6% 4,9% 1,1%
Molekül<br />
AK4 49813<br />
50015<br />
50182<br />
Manuell /<br />
In-House<br />
9,0%<br />
34,0%<br />
40,0%<br />
17,0%<br />
Molekül<br />
49901<br />
49959<br />
50089<br />
50121<br />
50063<br />
50222<br />
50282<br />
AK5 49732<br />
49813<br />
50017<br />
Manuell /<br />
In-House<br />
9,3%<br />
54,6%<br />
29,9%<br />
Massen<br />
MaxEnt<br />
10,1%<br />
35,6%<br />
37,2%<br />
17,0%<br />
Massen<br />
49960<br />
50089<br />
50121<br />
50252<br />
Basislinie: nicht abgezogen<br />
Basislinie: Tal zu Tal<br />
QA1 QA2 QA3 QA1 QA2 QA3<br />
26,8% 29,8% 29,2%<br />
18,4% 19,8% 19,1%<br />
Basislinie: Spline Basislinie: 4. Ableitung<br />
QA1 QA2 QA3 QA1 QA2 QA3<br />
16,3%<br />
15,4% 8,2% 5,5%<br />
41,5% 39,2% 39,4%<br />
Basislinie: nicht abgezogen<br />
Basislinie: Tal zu Tal<br />
QA1 QA2 QA3 QA1 QA2 QA3<br />
28,9% 24,3%<br />
31,4% 29,4%<br />
13,9%<br />
31,5% 31,1%<br />
37,8% 38,4% 40,2%<br />
27,4% 28,0%<br />
25,4% 10,3% 9,2%<br />
51,3%<br />
59,1% 60,9%<br />
26,9% 26,3%<br />
50279 8,7% 10,0% 9,2% 3,6% 3,6% 3,6%<br />
MaxEnt<br />
14,5%<br />
53,8%<br />
21,4%<br />
33,5%<br />
18,8%<br />
34,5%<br />
28,8%<br />
17,9% 19,4%<br />
24,6%<br />
22,7%<br />
Basislinie: Spline Basislinie: 4. Ableitung<br />
QA1 QA2 QA3 QA1 QA2 QA3<br />
26,2% 19,0% 15,2%<br />
41,9% 43,6% 47,6%<br />
25,3% 24,5% 28,4%<br />
19,0% 22,3%<br />
32,9% 34,8%<br />
20,2%<br />
29,8%<br />
12,2% 5,5%<br />
39,4% 36,6%<br />
33,6%<br />
14,8%<br />
39,2%<br />
14,8%<br />
19,8%<br />
42,6%<br />
15,3%<br />
15,0%<br />
4,3%<br />
36,1%<br />
44,8%<br />
14,7%<br />
14,7%<br />
30,3% 11,4% 8,8%<br />
45,7% 53,0% 59,3%<br />
17,9%<br />
37,5%<br />
27,4%<br />
40,5%<br />
28,3%<br />
6,2% 6,5% 7,5% 9,0% 7,4% 6,0% 8,3% 3,6%<br />
93
Molekül Massen<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
Basislinie: Tal zu Tal<br />
QA1 QA2 QA3<br />
AK6 35498 7,7% 7,7% 7,6% 4,1% 4,1% 3,4%<br />
35581 11,6% 11,6% 11,6% 12,2% 12,2% 12,2%<br />
35662 14,6% 14,6% 14,2% 17,3% 17,3% 17,6%<br />
35743 16,2% 16,2% 16,4% 20,1% 20,1% 20,5%<br />
35825 16,4% 16,5% 16,7% 19,5% 19,5% 19,7%<br />
35906 14,9% 14,9% 14,9% 15,8% 15,8% 16,2%<br />
35986 10,4% 10,4% 10,5% 7,1% 7,1% 7,0%<br />
36063 8,2% 8,2% 8,1% 3,9% 3,9% 3,5%<br />
94<br />
Manuell /<br />
In-House<br />
MaxEnt<br />
QA1<br />
Basislinie: Spline<br />
QA2 QA3<br />
Basislinie: 4. Ableitung<br />
QA1 QA2 QA3<br />
6,0% 7,4% 4,6% 4,6% 4,1% 3,1% 3,1% 2,4%<br />
11,0% 12,3% 11,0% 11,0% 11,1% 11,6% 11,6% 11,9%<br />
16,0% 15,3% 16,0% 16,0% 16,3% 16,9% 16,9% 17,1%<br />
18,0% 16,7% 18,8% 18,8% 19,3% 20,1% 20,1% 20,2%<br />
19,0% 16,9% 19,1% 19,1% 19,4% 20,4% 20,4% 20,9%<br />
16,0% 15,7% 16,4% 16,5% 16,2% 16,7% 16,7% 17,2%<br />
9,0% 9,8% 8,9% 8,9% 8,8% 7,1% 7,1% 6,9%<br />
5,0% 5,8% 5,2% 5,2% 4,9% 4,1% 4,1% 3,5%<br />
Molekül Massen<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
Basislinie: Tal zu Tal<br />
QA1 QA2 QA3<br />
AK7 35340 10,6% 10,6% 10,5% 9,7% 9,7% 9,7%<br />
35420 16,3% 16,3% 16,3% 18,1% 18,1% 18,3%<br />
35503 20,9% 20,9% 21,0% 24,0% 24,0% 24,1%<br />
35584 20,9% 20,9% 21,4% 24,0% 24,0% 24,3%<br />
35665 15,2% 15,2% 15,1% 14,8% 14,8% 15,0%<br />
35745 9,7% 9,7% 9,8% 6,7% 6,7% 6,6%<br />
35825 6,5% 6,5% 6,0% 2,6% 2,6% 2,1%<br />
Manuell /<br />
In-House<br />
MaxEnt<br />
QA1<br />
Basislinie: Spline<br />
QA2 QA3<br />
Basislinie: 4. Ableitung<br />
QA1 QA2 QA3<br />
8,0% 11,0% 9,3% 9,3% 8,4% 9,0% 9,0% 8,4%<br />
14,0% 16,8% 17,1% 17,1% 16,8% 17,6% 17,6% 17,8%<br />
20,0% 20,8% 23,3% 23,3% 23,6% 24,2% 24,2% 24,5%<br />
28,0% 21,3% 23,4% 23,4% 24,2% 24,5% 24,5% 25,0%<br />
18,0% 16,0% 15,5% 15,5% 16,0% 15,5% 15,5% 15,6%<br />
9,0% 9,4% 8,0% 8,0% 8,1% 6,7% 6,7% 6,4%<br />
3,0% 4,7% 3,6% 3,6% 3,0% 2,7% 2,7% 2,3%
Molekül Massen<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
Basislinie: Tal zu Tal<br />
QA1 QA2 QA3<br />
AK8 35342 13,2% 13,2% 12,9% 12,3% 12,3% 12,2%<br />
35422 19,2% 19,2% 19,4% 22,4% 22,4% 22,4%<br />
35504 23,1% 23,1% 23,3% 27,3% 27,3% 27,8%<br />
35586 21,9% 21,9% 22,1% 24,7% 24,7% 25,2%<br />
35668 13,8% 13,8% 13,8% 10,6% 10,6% 10,4%<br />
35747 8,7% 8,7% 8,5% 2,7% 2,7% 2,0%<br />
Manuell /<br />
In-House<br />
MaxEnt<br />
QA1<br />
Basislinie: Spline<br />
QA2 QA3<br />
Basislinie: 4. Ableitung<br />
QA1 QA2 QA3<br />
13,0% 13,5% 11,6% 11,6% 10,8% 13,2% 13,2% 13,0%<br />
21,0% 20,3% 20,5% 20,5% 21,1% 19,2% 19,2% 19,4%<br />
26,0% 23,7% 26,3% 26,3% 26,5% 23,1% 23,1% 23,3%<br />
24,0% 23,1% 24,5% 24,5% 24,8% 21,9% 21,9% 22,2%<br />
12,0% 14,0% 12,4% 12,4% 12,4% 13,8% 13,8% 13,7%<br />
4,0% 5,5% 4,7% 4,7% 4,4% 8,7% 8,7% 8,4%<br />
Molekül Massen<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
Basislinie: Tal zu Tal<br />
QA1 QA2 QA3<br />
AK9 35341 14,1% 14,1% 14,0% 14,4% 14,4% 14,1%<br />
35422 20,3% 20,3% 20,3% 24,3% 24,3% 24,5%<br />
35504 22,3% 22,3% 22,4% 25,2% 25,2% 25,7%<br />
35585 22,8% 22,8% 22,9% 26,3% 26,3% 27,1%<br />
35667 11,7% 11,7% 11,6% 6,5% 6,5% 6,2%<br />
35744 8,9% 8,9% 8,8% 3,3% 3,3% 2,5%<br />
Manuell /<br />
In-House<br />
MaxEnt<br />
QA1<br />
Basislinie: Spline<br />
QA2 QA3<br />
Basislinie: 4. Ableitung<br />
QA1 QA2 QA3<br />
16,0% 14,8% 12,9% 12,9% 12,3% 13,6% 13,6% 13,4%<br />
24,0% 21,9% 22,0% 22,0% 21,1% 23,8% 23,8% 24,3%<br />
23,0% 23,1% 25,0% 25,0% 25,3% 25,8% 25,8% 26,1%<br />
24,0% 24,5% 25,7% 25,7% 27,1% 27,3% 27,3% 27,9%<br />
9,0% 10,5% 9,4% 9,4% 9,5% 6,2% 6,2% 5,9%<br />
4,0% 5,2% 5,2% 5,2% 4,7% 3,3% 3,3% 2,5%<br />
Molekül Massen<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
Basislinie: Tal zu Tal<br />
QA1 QA2 QA3<br />
AK10 50601 47,0% 49,8% 49,9% 62,0% 64,3% 69,4%<br />
* 50763 23,6% 24,2% 25,6% 21,8% 22,7% 23,5%<br />
50927 14,0% 12,9% 11,2% 7,8% 6,6% 4,1%<br />
49152 15,4% 13,1% 13,4% 8,4% 6,5% 3,0%<br />
Manuell /<br />
In-House<br />
MaxEnt<br />
QA1<br />
Basislinie: Spline<br />
QA2 QA3<br />
Basislinie: 4. Ableitung<br />
QA1 QA2 QA3<br />
69,0% 69,0% 54,4% 56,9% 59,9% 57,6% 59,4% 74,7%<br />
25,6% 28,0% 23,1% 24,1% 24,8% 21,7% 22,7% 21,4%<br />
3,4% 2,9% 10,3% 9,6% 7,7% 10,5% 9,6% 2,9%<br />
2,0% 0,1% 12,2% 9,4% 7,6% 10,2% 8,3% 0,9%<br />
95
Molekül Massen<br />
Basislinie: nicht abgezogen<br />
QA1 QA2 QA3<br />
Basislinie: Tal zu Tal<br />
QA1 QA2 QA3<br />
AK11 50564 8,4% 13,1% 7,4% 10,0% 3,3% 16,9%<br />
50726 10,7% 11,6% 12,3% 11,2% 26,5% 16,9%<br />
50885 8,6% 7,3% 9,0% 6,5% 3,0% 0,8%<br />
50693 10,9% 11,8% 11,1% 13,5% 20,4% 20,7%<br />
50854 11,3% 13,4% 11,1% 15,9% 19,2% 19,6%<br />
51014 6,8% 5,8% 7,4% 4,6% 3,7% 4,5%<br />
51036 7,4% 7,4% 7,5% 6,0% 4,1% 1,5%<br />
51195 6,7% 8,5% 7,0% 4,9% 1,7% 4,6%<br />
51162 7,4% 6,7% 7,5% 6,6% 2,5% 1,1%<br />
51324 6,9% 4,4% 6,7% 6,5% 9,9% 4,4%<br />
49119 7,9% 4,7% 5,9% 8,6% 2,7% 4,3%<br />
49248 7,0% 5,3% 7,2% 5,9% 3,1% 4,9%<br />
96<br />
Manuell /<br />
In-House<br />
MaxEnt<br />
QA1<br />
Basislinie: Spline<br />
QA2 QA3<br />
Basislinie: 4. Ableitung<br />
QA1 QA2 QA3<br />
13,0% 15,3% 8,4% 14,2% 8,1% 11,1% 7,1% 6,7%<br />
18,5% 18,9% 11,7% 12,4% 11,9% 17,7% 12,6% 22,5%<br />
5,6% 2,0% 8,7% 7,0% 9,9% 5,5% 4,0% 10,0%<br />
18,7% 20,5% 12,0% 12,7% 10,7% 15,1% 17,4% 25,9%<br />
19,8% 20,4% 12,6% 14,7% 12,5% 13,8% 12,2% 20,6%<br />
2,5% 1,6% 6,2% 5,3% 7,9% 2,3% 0,0% 1,3%<br />
3,6% 5,4% 7,0% 7,3% 7,0% 6,9% 0,0% 2,2%<br />
3,1% 4,5% 6,0% 8,7% 6,7% 4,0% 1,1% 1,8%<br />
4,5% 4,1% 6,9% 6,4% 6,6% 7,2% 0,0% 2,2%<br />
3,2% 3,4% 6,2% 3,5% 5,8% 3,9% 2,6% 0,8%<br />
2,2% 1,3% 7,8% 3,6% 6,5% 6,6% 1,0% 1,2%<br />
5,1% 2,5% 6,5% 4,3% 6,5% 5,9% 42,0% 5,0%
C. Massfinder II<br />
Die Hauptseite <strong>von</strong> Massfinder II ist in Abb. C.1 zu sehen. Der obere Bereich enthält das ESI-<br />
MS-Spektrum und der untere Bereich enthält die Maximum-Entropie-Entfaltung des Spektrums.<br />
Die Peakserien werden im ESI-Spektrum vom Programm durch farbige Linien markiert.<br />
Dabei entspricht jede Farbe einer anderen Masse. Auf dieser Seite besteht die Möglichkeit,<br />
das Spektrum auf vorhandene Massen zu analysieren. Hierzu kann man sich die <strong>von</strong> MaxEnt<br />
berechneten Massen als Linien-Peakserien oder Isotopenverteilte-Peakserien anzeigen lassen<br />
und verifizieren, ob diese auch tatsächlich im Spektrum vorkommen oder nicht. Des Weiteren<br />
hat man hier die Möglichkeiten, das Spektrum zu Glätten, die Basislinie abzuziehen, Peaks für<br />
die Quantifizierung zu selektieren usw.<br />
Abb. C.1: Hauptseite <strong>von</strong> Massfinder II.<br />
Die nächste Seite (vgl. Abb. C.2) ist für die qualitative Auswertung konzipiert. Hier werden<br />
für eine Masse automatisch die wahrscheinlichsten Modifikationen aus einer gegebenen Modifikationsliste<br />
gefunden. Bei der Suchmethode kann zwischen direkter Suche und genetischem<br />
Algorithmus gewählt werden.<br />
97
Auf die Abbildung der dritten Seite wird verzichtet. Sie enthält eine Gesamtübersicht aller<br />
Massen, derer Strukturen und derer Quantitäten. Der Report kann für die weitere Protokollierung<br />
im ASCII-Format exportiert werden.<br />
Die letzte Seite ist für die Bestimmung der Hüllkurve zuständig (vgl. Abb. C.3). Für jede<br />
Masse kann hier die Hüllkurve im Diagramm dargestellt werden. Ein Algorithmus filtert im<br />
Hintergrund automatisch diejenigen Peaks heraus, welche wahrscheinlich Ausreißer sind<br />
(blaue Kreise). Das Fitting erfolgt dann auf die übrig gebliebenen (roten) Punkte. Die angepasste<br />
Hüllkurve ist rot dargestellt. Die Basisfunktionen der Hüllkurve sind in grau dargestellt.<br />
Um die Güte des Fittings zu beurteilen, werden <strong>von</strong> allen Parametern die Vertrauensintervalle<br />
sowie der R² Wert angegeben. Sollte ein Fitting misslingen, besteht die Möglichkeit,<br />
die Startparameter manuell festzulegen und durch Drücken <strong>von</strong> „Find & Update“ das Fitting<br />
erneut zu starten. Beim Drücken des Knopfes „Autofit & Update“ hingegen wird versucht<br />
die besten Startparameter automatisch zu ermitteln. Sollte die Ursache eines schlechten Fittings<br />
nicht an den Startparametern liegen, sondern an der Anzahl verwendeter Basisfunktionen,<br />
so kann diese angepasst werden. Standardmäßig werden zwei Basisfunktionen verwendet.<br />
Die Anzahl kann jedoch zwischen 1 und 4 variiert werden. Sobald das Fitting ein akzep-<br />
98<br />
Abb. C.2: Zuweisung <strong>von</strong> Strukturen.
tables Resultat hat, kann dies dem Programm durch Drücken des Knopfes „Model accepted“<br />
mitgeteilt werden. Die Hüllkurve der Peakserie wird daraufhin im Spektrum aktualisiert.<br />
Abb. C.3: Fitting der Hüllkurve.<br />
99
100
Literaturverzeichnis<br />
ÄrzteZeitung Herceptin bessert Chancen bei frühem Brustkrebs, Ärzte Zeitung,<br />
03.06.2005<br />
Budzikiewicz92 Massenspektrometrie – Eine Einführung, Herbert Budzikiewicz, 3.<br />
erw. Aufl., Weinheim / New York / Basel / Cambridge, VCH, 1992<br />
Chang84 Chang S. Hsu, Anal. Chem. 1984, 56, 1356-1361<br />
Chapman92 John R. Chapman and Richard T. Gallagher, Organic Mass Spectrometry,<br />
Vol. 27, 195-203 (1992)<br />
Dobo01 Andras Dobo and Igor A. Kaltashov, Anal. Chem. 2001, 73, 4763-<br />
4773<br />
Dobo03 Anirban Mohimen, Andras Dobo, Joshua K. Hoerner, Igor A.<br />
Kltashov, Anal. Chem. 2003, 75, 4139-4147<br />
ELehmann05 Computergestützte Auswertung <strong>von</strong> Antikörper-<strong>Massenspektren</strong>,<br />
Eckhard Lehmann, Diplomarbeit Fachhochschule Weihenstephan,<br />
2005<br />
EncyclVol2 Encyclopedia of Immunology, 2nd edition, Vol Two, P.J. Delves,<br />
Academic Press, 1998, p. 1001<br />
Fenn89 J. B. Fenn, M. Mann, C. K. Meng, S. F. Wong, C. M. Whitehouse,<br />
Science (246), 1989, 64-71<br />
Fernandez04 Jorge Fernander-de-Cossio et al., Nucleic Acids Research, 2004, Vol.<br />
32, Web Server issue<br />
Gross04 Mass Spectrometry – A Textbook, Jürgen H. Gross, Springer Verlag<br />
Berlin Heidelberg, 2004<br />
Gross99 Skript Massenspektrometrie zum Kurs Spektroskopische Methoden,<br />
Dr. J. H. Gross, OCI, INF 270, Uni Heidelberg,<br />
http://www.archaeometrielabor.com/Bilder/pdf/Skript99.pdf,<br />
(Sep. 2005)<br />
101
Haver05 Prof. Tom O’Haver, Introduction to Signal Processing: Signals and<br />
noise,<br />
http://www.wam.umd.edu/~toh/spectrum/SignalsAndNoise.html,<br />
(Sep. 2005)<br />
IUPAC IUPAC Compendium of Chemical Terminology, 2nd Edition, 1997,<br />
http://www.iupac.org/goldbook/M03902.pdf (Sep. 2005)<br />
Jefferis05 Royston Jefferis, Biotechnol. Prog. 2005, 21, 11-16<br />
KinLev McKinley, S. and Levine, M., Cubic Spline Interpolation,<br />
http://online.redwoods.cc.ca.us/instruct/darnold/laproj/Fall98/SkyMeg<br />
/Proj.PDF (Sep. 2005)<br />
Klein91 Immunologie, Jan Klein, 1. Aufl., Weinheim / New York / Basel /<br />
Cambridge, VCH, 1991<br />
Lehmann96 Massenspektrometrie in der Biochemie, Wolf D. Lehmann, Heidelberg<br />
/ Berlin / Oxford, Spektrum Akademischer Verlag, 1996<br />
Lourakis05 Manolis Lourakis, Levenberq-Marquardt non-linear least squares algorithms<br />
in C/C++,<br />
http://www.ics.forth.gr/~lourakis/levmar/ (Sep. 2005)<br />
Madsen04 K. Madsen, H.B. Nielsen, O. Tingleff, Technical University of Denmark,<br />
Lecture Notes, April 2004,<br />
http://www.imm.dtu.dk/courses/02611/nllsq.pdf (Sep. 2005)<br />
Motulsky Harvey Motulsky and Arthur Christopoulos, Fitting Models to Data<br />
Using Linear and Nonlinear Regression,<br />
http://www.curvefit.com/manuals/Prism4/RegressionBook.pdf<br />
(Sep. 2005)<br />
�R Numerical Recipes in C, 2nd edition, William H. Press, Saul A. Teukolsky,<br />
William T. Vetterling, Brian P. Flannery, Cambridge University<br />
Press, 2002<br />
Raju03 Glycosylation Variations with Expression Systems, T. Shantha Raju,<br />
BioProcess International, April 2003<br />
102
Reinhold92 Bruce B. Reinhold and Vernon N. Reinhold, J. Am. Soc. Mass Spectrom.<br />
1992, 3, 207-215<br />
Rockwood95 Alan L. Rockwood, Steven L. Van Orden, and Richard D. Smith,<br />
Anal. Chem. 1995, 67, 2699-2704<br />
Šamalikova03 Maria Šamalikova and Rita Grandori, Journal of Mass Spectrometry,<br />
2003, 38, 941-947<br />
SavGol64 Abraham Savitzky and Marcel J. E. Golay, Anal. Chem. Vol 36 No. 8<br />
July 1964, pp. 1627<br />
Schmieder97 Peter Schmieder et al., J. of Magnetic Resonance 1997, 125, 332-339<br />
Senko95 M. W. Senko et al, J. Am. Soc. Mass Spectrom. 1995, 6, 229-233<br />
Stern Brustkrebs – Eine neue Ära, Stern, 02.06.2005<br />
Stryer02 Jeremy M. Berg, John L. Tymoczko, Lubert Stryer, Biochemistry,<br />
Fifth Edition, W. H. Freeman and Company New York, 2002<br />
TopHat Serra Jean, Courses on Mathematical Morphology,<br />
http://cmm.ensmp.fr/~serra/cours/index.htm (Sep. 2005)<br />
Voet&Voet92 Daniel Voet, Judith G. Voet, Biochemie, VCH Verlagsgesellschaft<br />
mbH, Weinheim, 1992<br />
Yergey83 James A. Yergey, Int. J. Mass Spectrometry and Ion Physics, 1983, 52,<br />
337-349<br />
103