Quantitative Analyse von Protein-Massenspektren

LUDWIG - MAXIMILIANS - UNIVERSITÄT 

TECHNISCHE UNIVERSITÄT MÜNCHEN 

Lehr- und Forschungseinheit 

Bioinformatik 

Diplomarbeit 

in Bioinformatik 

Quantitative Analyse von 

Protein-Massenspektren 

Alex Kohn 

Aufgabensteller: Prof. Dr. Volker Heun 

Betreuer: Dr. Alexander Manta 

Abgabedatum: 15.10.2005

Erklärung 

Ich versichere, dass ich diese Diplomarbeit selbständig verfasst und nur die angegebenen 

Quellen und Hilfsmittel benutzt habe. 

15. Oktober 2005 ____________________________ 

Alex Kohn 

3

Danksagung 

Ich danke Prof. Dr. Volker Heun für seine Betreuung und Beratung während der Diplomarbeit 

ganz herzlich. Dr. Jörg Regula, Dr. Hans Koll, Dr. Engler Niklas und Achim Gärtner danke 

ich für die Bereitstellung empirischer Daten und für deren Ratschläge und Erklärungen. Silke 

Schneid-Müller und Mautz Björn danke ich für die manuelle Quantifizierung der synthetischen 

Daten. Ich möchte mich auch bei Eckhard Lehmann, für die Hilfestellung in der Einarbeitungsphase 

und für seine Denkanstöße, bedanken. 

Ganz besonderer Dank gilt Herrn Dr. Alexander Manta, für seine Betreuung und die aufschlussreichen 

Diskussionen, die ich mit ihm führen durfte. 

Danke auch an die gesamte TR-I Abteilung der Roche Diagnostics GmbH für die vielen informativen 

Gespräche und für die hervorragende Arbeitsatmosphäre. 

5

Zusammenfassung 

Die Elektrospray-Ionisations-Massenspektrometrie (ESI-MS) ist ein weit verbreitetes Werkzeug 

in der Analytik großer Biomoleküle. Im Fall von Antikörpern liegt der Schwerpunkt in 

der Untersuchung posttranslationaler Modifikationen. Das Glykosylierungsmuster eines Antikörpers 

entscheidet oft über dessen Funktion im Immunsystem [Jefferis05]. 

Für die medizinische Therapeutik ist es essentiell, zwischen verschiedenen Antikörperspezies 

(Glykosylierungsvarianten) zu diskriminieren. Nur ein Bruchteil der von einer Zelle sezernierten 

Antikörperspezien erfüllen die Eigenschaft, das richtige Zielprotein zu binden. Der Rest 

hat andere Eigenschaften und kann sogar schädliche Nebenwirkungen zur Folge haben. Für 

die industrielle Antikörperproduktion ist es aus diesem Grund wichtig, zu wissen, in welchen 

Verhältnissen die relativen Anteile der jeweiligen Spezies stehen. Dieser Quantifizierungsprozess 

kann direkt mit ESI-MS-Spektren durchgeführt werden. 

Existierende Quantifizierungsmethoden sind häufig auf kleine Peptide spezialisiert und eignen 

sich nicht für die Quantifizierung großer Moleküle. Lösungen, mit denen man auch große 

Glykoproteine quantifizieren kann, sind häufig aufwendig zu bedienen und nicht robust genug 

beim Quantifizieren. Im Rahmen dieser Diplomarbeit werden neue Methoden für die Quantifizierung 

von ESI-MS-Spektren großer Biomoleküle vorgestellt, welche nicht die erwähnten 

Mängel besitzen. 

Abstract 

Electrospray ionization mass spectrometry (ESI-MS) is a very powerful tool for the analysis of 

large biomolecules such as antibodies. The main interest here lies in the posttranslational 

modifications of proteins. In the case of antibodies these glycations often determine key functions 

[Jefferis05]. In antibody therapeutics it is important to discriminate between those species 

(glycation variants) which have a positive effect on the curing of diseases and those 

which have negative side effects. For this reason one needs to determine the relative amount 

of each species in a probe. This quantification process can be done directly in ESI mass spectra. 

Unfortunately the existing quantification methods lack user-friendliness and robustness. In 

this publication, new methods for the quantification of ESI-MS spectra, which do not have 

these limitations, have been developed. 

7

Inhalt 

Seite 

Liste der Abkürzungen .......................................................................................................... 11 

1. Einleitung ............................................................................................................. 13 

1.1. Motivation ............................................................................................................. 13 

1.2. Ziel der Arbeit ....................................................................................................... 14 

2. Ausgangssituation ................................................................................................ 17 

2.1. ESI-Massenspektrometrie ...................................................................................... 17 

2.2. Glykoproteine ........................................................................................................ 20 

2.3. ESI-MS-Spektren von Glykoproteinen ................................................................. 24 

2.4. Bestehende Software ............................................................................................. 29 

2.5. Anforderungen ....................................................................................................... 32 

3. Konzepte ............................................................................................................... 35 

3.1. Lösungswege ......................................................................................................... 35 

3.2. Glättung ................................................................................................................. 38 

3.3. Basislinie ............................................................................................................... 42 

3.3.1. Von Tal zu Tal ....................................................................................................... 43 

3.3.2. Kubische Spline-Interpolation ............................................................................... 43 

3.3.3. Vierte Ableitung .................................................................................................... 45 

8

3.4. Isotopenverteilung ................................................................................................. 46 

3.5. Simulation der Peakverbreiterung ......................................................................... 52 

3.6. Curve-Fitting ......................................................................................................... 54 

3.6.1. Levenberg-Marquardt-Algorithmus ...................................................................... 56 

3.6.2. Güteparameter ....................................................................................................... 59 

3.6.3. Optimierung des Fittings ....................................................................................... 61 

3.6.4. Ausreißer ............................................................................................................... 63 

4. Technische Umsetzung ........................................................................................ 67 

5. Validierung .......................................................................................................... 71 

5.1. Validierung des Hüllkurven-Fittings ..................................................................... 71 

5.2. Validierung der Quantifizierungspipeline ............................................................. 74 

5.3. Experimentelle Resultate ....................................................................................... 83 

6. Zusammenfassung und Ausblick ....................................................................... 85 

Anhang ............................................................................................................................... 87 

A. Quantifizierungsergebnisse synthetischer Spektren .............................................. 87 

B. Quantifizierungsergebnisse empirischer Spektren ................................................ 92 

C. Massfinder II.......................................................................................................... 97 

Literaturverzeichnis ............................................................................................................. 101 

9

Liste der Abkürzungen 

Ara L-Arabinose 

amu atoms per mass unit 

D Dalton, 1D=1.665402*10 -27 kg 

DLL Dynamic Link Library 

DOF Degree of Freedom 

ESI Elektrospray Ionisation 

FAB Fast Atom Bombardment 

FFT Fast Fourier Transformation 

Fuc L-Fukose 

FWHM Full Width at Half Maximum 

Gal D-Galaktose 

GalNAc N-Acetyl-D-Galaktosamin 

Glc D-Glukose 

GlcNAc N-Acetyl-D-Glukosamin 

GUI Graphical User Interface 

k Kilo 

log, ln natürlicher Logarithmus 

LM Levenberg-Marquardt 

MALDI Matrix-Assisted Laser Desorption/Ionization 

Man D-Mannose 

MS Massenspektrometrie 

MF Massfinder 

NANA N-Acetylneuraminsäure bzw. Sialinsäure 

SVD Singular Value Decomposition / Eigenwertzerlegung 

V Volt 

eV Elektronen-Volt 

Xyl D-Xylose 

11

1. Einleitung 

Die Massenspektrometrie (MS) ist ein sehr bedeutendes Werkzeug in der Analytik organischer 

Verbindungen. Sie findet Anwendung in der Substanzanalyse von Gemischen, in der 

Sequenzierung von Biomolekülen, in der Qualitätskontrolle von Medikamenten und vielem 

mehr. Es gibt eine Vielzahl von Geräteklassen für die MS, wobei die Elektrospray- 

Ionisations-Massenspektrometrie (ESI-MS) der wichtigste Vertreter ist. Besonders interessant 

ist die MS für die Analytik großer Moleküle wie etwa Antikörper, da sie es ermöglicht, die 

Moleküle als Ganzes zu untersuchen. Somit ist eine Fragmentierung der Proteine in kleine 

Peptide nicht mehr notwendig, was weitere Fehlerquellen ausschließt, Kosten reduziert und 

Zeit bei dem Analyseprozess einspart. 

1.1. Motivation 

Proteine werden häufig durch Glykosylierung posttranslational modifiziert. Die Glykosylierungsarten 

eines Proteins üben einen großen Einfluss auf deren Funktion aus. Besonders gut 

charakterisiert ist dieser Sachverhalt bei Antikörpern: Hier entscheiden Glykosylierungen über 

die Aktivierung von Effektor-Mechanismen des adaptiven Immunsystems [Jefferis05]. Eine 

Zelle produziert i.d.R. nicht eine Glykovariante eines Antikörpers, sondern eine Vielzahl verschiedener 

Varianten (sog. Mikroheterogenität) [Raju03]. Dies ist einerseits eine wünschenswerte 

Eigenschaft, weil dadurch die Flexibilität des Immunsystems gesteigert wird. Andererseits 

ist dies für die medizinische Anwendung von Antikörpern jedoch ungünstig, weil oft nur 

wenige Glykovarianten eines Antikörpers die gewünschte therapeutische Wirkung entfalten. 

Die Herstellung monoklonaler Antikörper (eine Glykovariante) ist deshalb eminent. Regelmäßige 

Qualitätskontrollen der pharmazeutischen Produktion sind wichtig, um sicher zu stellen, 

dass keine Verunreinigungen durch fremde Glykoformen vorhanden sind. Übersteigen z.B. 

bestimmte Glykoformen eines Proteins einen gewissen Konzentrationsanteil, können schädliche 

Nebenwirkungen für den Patienten auftreten. 

Die Probenanalyse lässt sich mit der ESI-MS tätigen. Die gewonnenen Spektren enthalten Informationen 

über die in der Probe vorhandenen Massen und deren Intensitäten. Die Bestimmung 

der Massen ist mit Hilfe von Entfaltungsalgorithmen wie z.B. dem „Maximum- 

Entropie“-Algorithmus (MaxEnt) möglich [Reinhold92]. Der MaxEnt-Entfaltungsprozess 

führt eine auf der Entropie basierten Rekonstruktion des Spektrums durch. Als Ergebnis erhält 

man eine Liste mit den im Spektrum vorhandenen Massen und deren wahrscheinlichen Quantitäten. 

Ausgehend von der MaxEnt-Massenliste und der Referenzmasse des untersuchten Proteins, 

können dessen Zuckermodifikationen ermittelt werden. Die Schwierigkeit hierbei besteht 

im Auffinden der richtigen Kombination, denn es gibt eine Vielzahl an Glykoformen und 

13

somit viele Kombinationen, die auf ihre Richtigkeit hin überprüft werden müssen. Der MaxEnt-Algorithmus 

liefert zwar Informationen über die wahrscheinlichen Quantitäten der ermittelten 

Massen, diese weisen aber eine Nichtlinearität auf [Reinhold92], weshalb die Ergebnisse 

in der Praxis nur von wenigen Laboranten herangezogen werden. Bei Verwendung der 

so ermittelten Massenverhältnisse kann man sich nie über die Größe der Nichtlinearität bzw. 

des Fehlers sicher sein. In Folge dessen muss man für die zuverlässige Bestimmung der Quantitäten 

andere Wege einschlagen. 

Das Bestimmen der richtigen Quantitäten ist bei Spektren großer Biomoleküle keine triviale 

Aufgabe: Das Massenspektrum ist eine Überlagerung mehrerer Peakserien. Dadurch ist die 

Basislinie nach oben verschoben, einzelne Peaks sind nicht mehr sichtbar, Peakhöhen und 

Formen werden durch Summierung mehrerer Peaks verfälscht. Die Peaks verlieren durch 

Überlagerung die Gauß-Form, sie bekommen Schultern, Sättel, etc. All diese Punkte erschweren 

eine Quantifizierung erheblich. 

Bei der Quantifizierung per Hand ist die Reproduzierbarkeit nur bei „erfahrenen“ Laboranten 

gewährleistet. Die Bewertungsergebnisse „unerfahrener“ Laboranten weisen eine große Streuung 

auf. Der Hauptgrund hierfür ist in der Tatsache begründet, dass bei der manuellen Messung 

nur wenige Peaks als Berechnungsgrundlage dienen. Weil Peaks durch andere verfälscht 

sein können, kann es bei ungünstiger Peakauswahl zur Berechnung falscher Massenverhältnisse 

kommen. Solche Fälle können z.B. auftreten, wenn die Peaks durch andere Massen wie 

z.B. Addukte überlagert werden. Addukte sind Zusammenschlüsse zwischen in der Lösung 

befindlichen Ionen und Analyten. 

Auf dem Markt existieren Lösungen für die Quantifizierung von ESI-MS-Spektren. Jedoch 

sind diese Softwareprodukte meistens auf die Quantifizierung kleiner Peptide spezialisiert. 

Große Biomoleküle wie Antikörper lassen sich damit nur bedingt quantifizieren. Um die 

Quantitäten der Analyten korrekt zu bestimmen, ist deshalb die Entwicklung neuer Verfahren 

notwendig, welche zuverlässig, robust und reproduzierbar quantifizieren. 

1.2. Ziel der Arbeit 

Das Ziel der Arbeit ist es, Methoden für die Quantifizierung von ESI-MS-Proteinspektren zu 

entwickeln. Die entwickelten Methoden werden in die bereits bestehende Softwarelösung 

Massfinder (MF) eingebaut. MF I wurde im Rahmen einer Diplomarbeit an der FH Weihenstephan 

entwickelt [ELehman05] und ist für die qualitative Analyse von ESI-MS-Spektren 

konzipiert worden. Durch die Einbindung in das bestehende Programm soll ein optimaler Arbeitsablauf 

zwischen qualitativer und quantitativer Analyse der Spektren erreicht werden. 

14

Damit die Messung der Quantitäten möglichst unabhängig vom jeweiligen Benutzer ist, soll 

ein weitestgehend automatisiertes Quantifizierungsverfahren entwickelt werden. Dabei soll 

die Automatisierung mindestens die gleiche Genauigkeit haben wie die des „erfahrenen“ Laboranten. 

Um das zu bewerkstelligen muss das Problem der Peaküberlappung und die damit 

verbundene Verfälschung der Signalintensität gelöst werden. 

Die Bestimmung der Güte der entwickelten Methoden ist bei empirischen Daten nicht ohne 

weiteres möglich. Deswegen wird am Ende der Arbeit eine Evaluierung anhand von Monte- 

Carlo-Simulationen vollzogen. Es werden künstliche Daten erzeugt und mit Teilen des Programms 

bzw. mit der kompletten Prozesspipeline ausgewertet. Zusätzlich werden auch andere 

gängige Methoden der Quantifizierung in die Evaluierung mit einbezogen. Dadurch ist ein 

Vergleich der Verfahren untereinander möglich. 

Mit der Weiterentwicklung von Massfinder wird eine robuste und vielseitig anwendbare Plattform 

für die Quantifizierung geschaffen, welche nicht die Mängel anderer Lösungen aufweist. 

15

2. Ausgangssituation 

Antikörper sind Glykoproteine, die für die Immunabwehr des Organismus von zentraler Bedeutung 

sind. Folglich sind sie auch für die Pharmaforschung von großem Interesse, schließlich 

können diese, falls richtig eingesetzt, als Therapeutika verwendet werden. Die Analytik 

von Glykoproteinen bzw. Antikörpern ist aufgrund der Anzahl möglicher Glykoformen sehr 

komplex. Um diese Komplexität zu minimieren, werden häufig Oligosaccharid und Protein 

separat analysiert. Dies hat allerdings den Nachteil, dass die Positionsinformation verloren 

geht. Für die Charakterisierung von einfach glykosylierten Antikörpern eignen sich Massenspektrometer 

besonders gut. Zum einen können mit geringsten Probenmengen verlässliche 

Daten geliefert werden und zum anderen kann das Glykoprotein als Ganzes analysiert werden. 

Für die Auswertung der Daten bedarf es leistungsfähiger Software, welche in der Lage ist, die 

relevanten Informationen für den Biologen herauszugreifen. 

Im Folgenden werden die technischen Grundlagen im Hinblick auf die Massenspektrometrie 

vermittelt. Des Weiteren werden einige biologische Fakten über Glykoproteine, im speziellen 

Antikörper, vermittelt. Anschließend wird ein Überblick über vorhandene Softwareprodukte 

gegeben und gezeigt, warum diese allein für eine befriedigende Lösung der hiesigen Thematik 

nicht ausreichend sind. Am Ende dieses Kapitels werden die Anforderungen beschrieben, 

welchen eine neue Lösung gerecht werden muss. 

2.1. ESI-Massenspektrometrie 

Die Massenspektrometrie hat in den letzten Jahrzehnten stetig an Bedeutung gewonnen und 

ist heutzutage kaum mehr aus der Analytik wegzudenken. Historisch hatte die MS ihre Hauptanwendung 

in der Untersuchung von physikalischen und chemischen Prozessen v. a. in der 

Ölindustrie. Durch den raschen technischen Fortschritt wurde es bald möglich, auch biochemische 

Analysen hochmolekularer Substanzen durchzuführen. Zunächst waren es Lipide mit 

bis zu 1 kD, heutzutage kann man dank moderner Ionisierungsmethoden komplexe Proteine 

mit bis zu 250 kD untersuchen [Lehmann96]. 

Mit Hilfe der MS kann man u.a.: 

• bekannte Substanzen in einem Gemisch identifizieren; 

• eine quantitative Analyse bekannter Substanzen eines Gemisches durchführen; 

• die Struktur unbekannter Verbindungen analysieren; 

• Biomoleküle strukturell charakterisieren; 

• Proteine und Peptide sequenzieren. 

17

Ein Massenspektrometer besteht aus einer Ionenquelle, einem Massenanalysator und einem 

Detektor (vgl. Abb. 2.1.1). Organische oder anorganische Moleküle werden ionisiert, um anschließend 

nach ihrem Verhältnis von Masse zu Ladung (m/z) getrennt zu werden. Ein Detektor 

misst die Treffer (Intensität) zu jedem m/z Wert. Für die Ionisierung existieren verschiedene 

Methoden. Je nach Wahl erhält man niedrig bis hoch ionisierte Moleküle. Bei den Massenanalysatoren 

existiert ebenfalls eine große Zahl an Varianten. [Gross04] 

Als Resultat der Messung erhält man ein Spektrum, welches einen zweidimensionalen Abdruck 

der Intensität gegen die m/z Werte enthält. 

Die Elektrospray-Ionisation ist wegen ihrer besonderen Eigenschaften häufig das Verfahren 

der Wahl, wenn es um die Ionisierung von Proteinen geht. Das Elektrospray- 

Ionisierungsverfahren wurde von John B. Fenn et al. entwickelt und 1989 publiziert [Fenn89]. 

Er wurde 2002 dafür mit dem Nobelpreis für Chemie ausgezeichnet. Beim ESI-Verfahren 

(vgl. Abb. 2.1.2) wird die Lösung, welche die Analyten enthält, durch eine dünne Kapillare 

versprüht. Die zwischen der Kapillarspitze und der Gegenelektrode anliegende Potentialdifferenz 

von bis zu einigen kV bewirkt, dass die versprühten Tröpfchen beim Austritt aus der Kapillare 

geladen werden. Durch die nun folgende Evaporation der Tröpfchen, verringert sich 

das Volumen und die Ladungsdichte steigt. Sobald die Coulomb-Abstoßung der Ladungen eine 

größere Kraft ausübt als die Oberflächenspannung des Tröpfchens, zerfällt es in noch kleinere 

Tröpfchen. Dieser kritische Punkt wird auch als Rayleigh-Limit bezeichnet. Der Verlauf 

wiederholt sich so lange, bis nur noch die Analyt-Ionen bzw. die hoch solvatisierten Analyt- 

Ionen übrig bleiben. Ein Teil der Ionen gelangt durch einen Spalt in der Gegenelektrode zum 

Analysator, in dem sie nach dem Verhältnis von Masse zu Ladung (m/z) getrennt werden. Ob 

die Ionen negativ oder positiv geladen werden, hängt von ihren chemischen Eigenschaften und 

der Polarität der anliegenden Potentialdifferenz ab. 

18 

Abb. 2.1.1: Schematischer 

Aufbau eines Massenspektrometers. 

Nach 

[Gross04 S.4] 

Abb. 2.1.2: Die Tröpfchen werden 

beim Austritt aus der Kapillare aufgrund 

der hohen Potentialdifferenz 

elektrisch geladen. Anschließend 

findet eine Coulomb-Explosion der 

Tröpfchen statt, so dass sie immer 

kleiner werden, bis nur noch die 

Analyt-Ionen in der Gasphase übrig 

bleiben. Ein Teil der so gebildeten 

Ionen gelangen durch einen Spalt in 

der Gegenelektrode zum Analysator. 

Nach [Lehmann96 S.100]

Die Frequenz, mit der sich bestimmte Ladungszustände bilden, folgt einer statistischen Verteilung. 

Die Form der Ladungsverteilung wird durch die Masse und die Konformation des Moleküls 

bedingt. Hierbei sei erwähnt, dass jeder Ladungszustand eines Moleküls zwischen minimalem 

und maximalem Ladungszustand besetzt wird, d.h. es gibt keine Lücken in der Ladungsverteilung 

(vgl. dazu Abb. 2.3.5). [Lehmann96, Samalikova03] 

Eine besondere Eigenschaft von ESI ist, dass es ein schonendes Verfahren ist, d.h. es kommt 

nur geringfügig zur Fragmentierung der Analyten, was eine exakte Molekulargewichtsbestimmung 

ermöglicht. Als zweites Merkmal ist die Detektion großer Massen hervorzuheben 

(bis 250 kD). Dies wird durch den Umstand ermöglicht, dass hoch geladene (bzw. mehrfach 

geladene) Molekülionen, d.h. hohe z-Werte, bei entsprechend niedrigen m/z-Werten im 

Spektrum abgebildet werden. 

Diese zwei Merkmale sind bei anderen populären Ionisierungsverfahren wie etwa „Matrix- 

Assisted Laser Desorption/Ionization“ (MALDI) oder „Fast Atom Bombardment“ (FAB) nicht 

anzutreffen. Bei MALDI wird ein gepulster Laser zur Ionisierung der auf einer Metalloberfläche 

angebrachten Analyten verwendet. Im Gegensatz zu ESI entstehen hierbei meistens nur 

einfach geladene Ionen, ganz selten auch zweifach geladene. Des Weiteren ist bauartbedingt 

die Probe nur schwer vor den zerstörenden Eigenschaften des Lasers zu schützen, und es 

kommt dadurch eher zur Fragmentierung der Analyten. [Lehmann96] 

Bei FAB werden die Analyten in einer organischen Matrix (i.d.R. bestehend aus Glycerol und 

3-nitrobenzyl Alkohol) gelöst, so dass diese als Ionen vorliegen. Die Matrix wird anschließend 

mit einem Primärionenstrahl von etwa 10-15keV kinetischer Energie beschossen. Aufgrund 

der erzeugten Stoßkaskade werden die Analyt-Ionen in die Gasphase überführt. Die Art 

der erzeugten Spektren hängt stark vom verwendeten Lösungsmittel und von der Zusammensetzung 

der Matrix ab. FAB ist wie auch MALDI kein wirklich schonendes Verfahren. Bei 

Massen mit einem Molekulargewicht ab einigen kD kommt es außerdem zur Fragmentierung 

der Analyten. Somit eignet es sich nicht für die Untersuchung großer Glykoproteine. [Budzikiewicz92] 

Die Spektren, welche in dieser Arbeit betrachtet werden, stammen alle von einem Quadrupol- 

Flugzeit-Analysator. Ein Quadrupol besteht aus vier Metallstäben, welche parallel angeordnet 

sind. Die Ionen, welche durch das Quadrupol fliegen, können durch Anlegen geeigneter Spannungen 

an den Metallstäben gefiltert werden. Man kann somit bestimmen, welcher Massenbereich 

durchgelassen wird. Anschließend treten die Ionen in ein Flugrohr ein, in dem sie durch 

gepulstes Anlegen von Hochspannung auf das gleiche kinetische Energieniveau gehoben werden. 

Dadurch erreichen leichte Ionen vor den schweren Ionen den Detektor am Ende des Flugrohrs. 

Um die Flugzeit messen zu können, werden die Ionen gepulst, d.h. sie werden paketweise 

zum Detektor geschickt. Aus den Flugzeiten können die m/z-Werte berechnet werden 

und man erhält das m/z-Spektrum. [Budzikiewicz92, Gross04] 

19

2.2. Glykoproteine 

Hierbei handelt es sich um eine Gruppe komplexer Makromoleküle, welche in nahezu allen 

Lebensformen vorkommen. Den größten Anteil daran haben posttranslational modifizierte 

Membranproteine sowie Proteine, welche in der extrazellulären Matrix vorkommen. Diese 

üben einen großen Einfluss auf die Funktion und Entwicklung von Zellen aus. Besonders 

wichtige Vertreter der Glykoproteine lassen sich in der Immunabwehr von Säugetieren finden, 

nämlich Immunglobuline und Immunglobulin-Rezeptoren. 

Glykoproteine bestehen aus dem kovalenten Zusammenschluss eines Proteins und mehrerer 

Kohlenhydrate (vgl. Abb. 2.2.1). Die Bindungstypen lassen sich aufteilen in N-glykosidische 

und O-glykosidische Bindungen. Bei der ersten Klasse erfolgt die Bindung an die Aminogruppe 

von Asparagin, bei der zweiten an die Hydroxygruppe von Threonin oder Serin. Oligosaccharid-Seitenketten 

von Membran-Glykoproteinen sind nur aus den folgenden 9 Monosaccharid 

Grundbausteinen zusammengesetzt, obwohl weit mehr Monosaccharide existieren: 

Glukose (Glc), Galaktose (Gal), Mannose (Man), Fucose (Fuc), Arabinose (Ara), Xylose 

(Xyl), N-Acetyl-D-Glukosamin (GlcNAc), N-Acetyl-D-Galaktosamin (GalNAc) und Sialinsäure 

(NANA). [Klein91] 

Antikörper bestehen aus zwei identischen Kettenpaaren, mit je einer leichten Kette (ca. 25kD) 

und einer schweren Kette (50kD bis 80kD). Die schwere und die leichte Kette sind durch eine 

Disulfidbrücke verbunden. Die zwei schweren Ketten sind in der Gelenkregion durch zwei 

Disulfidbrücken miteinander verbunden (vgl. Abb. 2.2.3 a). Charakteristisch für die Antikörper 

ist, dass sie über einen konstanten Bereich (CL und CH) und einen variablen Bereich (VL 

und VH) verfügen. Der konstante Bereich ist allen Antikörpern gemeinsam, der variable Bereich 

– die Antigenbindestelle – zeichnet sich durch eine hohe Heterogenität innerhalb der 

Antikörperpopulationen aus. Diese Teile haben zwei wesentliche Aufgaben: 

(1) Antigen-Bindung: Moleküle des Antigens (z.B. Pathogene) werden gebunden, wodurch 

eine Immunantwort ausgelöst wird. 

(2) Wechselwirkung mit Effektoren: Andere Zellen und Moleküle, welche das Antigen 

zerstören, werden mobilisiert. 

20 

Abb. 2.2.1: Zwei Klassen von 

Oligosaccharid-Bindungen an 

Proteinen. Die Bindungsstelle 

zwischen Zucker und Protein 

ist durch einen Kreis symbolisiert. 

Links sieht man eine 

N-glykosidische Bindung und 

rechts eine O-glykosidische. 

Nach [Klein91 S.139]

Die Immunglobuline lassen sich in fünf Klassen unterteilen, wobei jede Klasse eine eigene 

physiologische Aufgabe besitzt: IgM, IgD, IgG, IgA und IgE. IgM befindet sich im Blut und 

ist der erste Antikörper, welcher sofort nach Kontakt mit einem Antigen sezerniert wird. Seine 

Spezialisierung ist das Binden von ins Blut eingedrungenen Mikroorganismen. Die häufigste 

Immunglobulin-Klasse (und die interessanteste für die Pharmaforschung) ist IgG, welche im 

Blut und interstitieller Flüssigkeit vorkommt. IgG wird in einer verzögerten Phase nach dem 

Auftreten von IgM gebildet. Von entscheidender Bedeutung ist IgG für die Immunität des Fetus, 

da IgG als einziges Immunglobulin die Plazenta-Barriere überwinden kann. IgA kommt 

hauptsächlich im Verdauungsapparat, Speichel, Schweiß und in Tränen vor. Seine Funktion 

besteht darin, Erregern die Anlagerung an das Epithel unmöglich zu machen. IgE ist für alle 

allergischen Reaktionen verantwortlich, außerdem schützt es vor Parasiten wie z.B. Würmern. 

Im Blut kommt es nur in sehr geringen Mengen vor. Ebenfalls im Blut und nur in geringen 

Mengen vorhanden ist IgD, dessen Funktion vergleichsweise unbekannt ist. [Voet&Voet92, 

Stryer02] 

Abb. 2.2.2: Zuckermodifikationen. Links befinden sich 

Beispiele für den komplexen Typ, rechts für den Mannose-reichen 

Typ. Unten ist eine O-glykosidische Bindung 

dargestellt. Bei den komplexen Typen kann man 

sehr schön die Kernregion sehen, welche allen Varianten 

zugrunde liegt: β – β1,4 – β1,4 – α1,6 – α1,3. Die 

N-verknüpfte komplexe Oligosaccharid-Struktur oben 

in der Mitte ist die größte Struktur, die je im menschlichen 

IgG gefunden wurde [Raju03]. 

Nach [Klein91 S.140] 

Von IgG gibt es vier verschiedene Isotypen (IgG1, IgG2, IgG3, IgG4), die sich in der Anzahl 

interner Disulfidbindungen und in ihrer Effektor-Funktionalität unterscheiden, obwohl die Isotypen 

eine Sequenzhomologie von über 95 % aufweisen [Jefferis05]. IgGs tragen häufig Zu- 

21

ckermodifikationen, welche großen Einfluss auf ihre Funktion haben [Raju03]. Die von den 

Immunglobulinen O-glykosidisch gebundenen Kohlenhydrate sind variabel in ihrer Struktur, 

aber sehr klein (750D). Die N-glykosidisch gebundenen Oligosaccharide hingegen sind wesentlich 

größer (ca. 2700D) und können bis zu 15 verschiedene Monosaccharide enthalten. 

Bei letzterem unterscheidet man zwei Arten: Mannose-reich und komplex [Klein91]. 

Ein bestimmtes Glykoprotein kann in verschiedenen Varianten auftreten, die sich in ein oder 

mehr Strukturmerkmalen der Glykosylierung unterscheiden [IUPAC]. Man bezeichnet diesen 

Sachverhalt als Mikroheterogenität. IgGs verfügen häufig über eine ausgeprägte Mikroheterogenität, 

d.h. die N-verknüpften Oligosaccharide sind sehr heterogen. Die Heterogenität 

herrscht nicht nur innerhalb einer Zelle, sondern auch über mehrere Zellen hinweg. Die Ursache 

liegt in der Variation des Expressionssystems, d.h. die Anzahl gebundener Zuckermoleküle 

variiert. Die Mikroheterogenität hat besonders starke Auswirkungen auf die industrielle 

Produktion von Antikörpern, da kleinste Variationen in der Herstellung zu unterschiedlichen 

Glykosylierungen rekombinanter IgGs führen. Problematisch wird dies durch die Tatsache, 

dass kleinste Veränderungen in der Glykosylierung die therapeutische Aktivität stark beeinflussen 

können [Raju03, Jefferis05]. Deswegen stellt sich bei der Analyse von Antikörper- 

Massenspektren häufig die Frage, welche Art und welche Mengen einzelner Spezies vorhanden 

sind. 

Antikörper verfügen in der Gelenkregion (Hinge) über eine konservierte Glykosylierungsstelle. 

Daneben besitzen die leichte und die schwere Kette in dem variablen Bereich noch einige 

nicht konservierte Glykosylierungsstellen. Je mehr solcher Stellen besetzt sind, desto mehr 

Glykosylierungskombinationen sind möglich. Um unerwünschte Nebenwirkungen bei der 

Therapie mit Antikörpern zu vermeiden, ist es wichtig, dass die Anzahl anormaler Glykosylierungen 

minimiert wird. Von den Gesundheitsbehörden gibt es strenge Grenzen, in denen das 

Glykosylierungsprofil liegen muss. In Folge dessen hat man vorzugsweise einfache Antikörper, 

die nur über eine Glykosylierungsstelle verfügen. [Jefferis05] 

Um die Analyse der Spektren zu vereinfachen, werden die Antikörper reduziert, so dass 

schwere und leichte Kette massengetrennt sind. Der Nutzen ist dabei, dass die leichte Kette, 

22 

a) b) 

Abb. 2.2.3: 

a) Schematischer 

Aufbau eines IgG 

Antikörpers 

b) Beispiel für ein 

an IgG gebundenes 

Oligosaccharid 

vom komplexen 

Typ. Der Kernbereich 

ist blau hinterlegt. 

Nach [EncyclVol2]

welche meistens über keine Glykosylierungen verfügt, als Referenzmasse verwendet werden 

kann. Überdies lassen sich die Glykosylierungsvarianten der schweren bzw. leichten Kette 

leichter bestimmen, da Variationen der jeweils anderen Kette nicht berücksichtigt werden 

müssen. 

Im Folgenden wird kurz erläutert, wie Antikörper für die medizinische Therapeutik hergestellt 

werden können. 

Bei der aktiven Immunisierung gegen ein Antigen werden eine Vielzahl an Antikörpern gebildet 

– so genannte polyklonale Antikörper –, welche das Antigen binden. Polyklonal heißt, 

dass die Antikörper sich nicht nur in den Glykosylierungen unterscheiden, sondern auch in der 

Aminosäuresequenz. Folglich sezerniert jeder B-Lymphozyt einen anderen Antikörper, es 

herrscht also eine große Heterogenität. Für die Medizin ist es jedoch von besonderem Interesse, 

monoklonale Antikörper in großen Mengen herzustellen, die ein bestimmtes Antigen binden. 

Monoklonale Antikörper besitzen die gleiche Aminosäuresequenz, unterscheiden sich jedoch 

an den Glykosylierungsstellen (Mikroheterogenität). Die Herstellung monoklonaler Antikörper 

ist nicht unproblematisch. Zum einen muss ein Lymphozyt gefunden werden, welcher 

Antikörper gegen das zu bindende Antigen produziert und zum anderen muss der Lymphozyt 

auch in vitro lebensfähig sein. 

Ein möglicher Lösungsweg ist folgender: Um Antikörper gegen ein Antigen X zu erhalten, injiziert 

man in die Milz einer Maus eine bestimmte Dosis des Antigen X. Nach erfolgreicher 

aktiver Immunisierung haben sich spezifische B-Lymphozyten gegen das injizierte Antigen 

gebildet. Im nächsten Schritt werden die Milzzellen und somit auch die aktivierten Lymphozyten 

der Maus entnommen. Es bleibt noch das Problem bestehen, dass normale B- 

Lymphozyten in vitro nicht lebensfähig sind. Krebsartige Zellen hingegen lassen sich in vitro 

vermehren, weil sie mit nur sehr wenigen Wachstumsfaktoren auskommen. Deswegen hybridisiert 

man die entnommenen B-Zellen mit krebsartigen Lymphozyten, den Myelomzellen, 

welche nur monoklonale Antikörper sezernieren. Die so entstehenden Klone (Hybridome) 

sind in vitro lebensfähig und können nun auf einem geeigneten Medium gezüchtet werden. 

Die von den Hybridomen sezernierten Antikörper werden anschließend in einem Screening- 

Verfahren auf ihre Funktionalität hin überprüft. Es findet also eine Klonauswahl bzw. Antikörperauswahl 

statt. In der Therapeutik hat man hierbei Interesse, möglichst effektive Antikörper 

zu finden, d.h. hohe Affinität für das zu bindende Antigen, geringe Mikroheterogenität 

und keine Wechselwirkung mit anderen Stoffen. Nach Auswahl geeigneter Antikörper müssen 

diese noch „humanisiert“ werden, da sonst im Menschen eine Immunantwort gegen die Mausantikörper 

stattfinden würde. Die Humanisierung eines Antikörpers beinhaltet den Austausch 

der konstanten Bereiche gegen humane Sequenzen. [Voet&Voet92] 

Ursprünglich wurden Antikörper in der Medizin v. a. zur passiven Impfung gegen Pathogene 

eingesetzt. Mittlerweile hat auch die Tumortherapie mit Antikörpern eine immer größer wer- 

23

dende Bedeutung erreicht. Aktuelles Beispiel ist Herceptin, welches gegen Brustkrebs erfolgreich 

eingesetzt wird [ÄrzteZeitung, Stern]. 

2.3. ESI-MS-Spektren von Glykoproteinen 

Im Folgenden werden einige wichtige Eigenschaften von ESI-MS-Spektren erläutert. In Abb. 

2.3.1 ist ein Spektrum eines Antikörpers abgebildet, welches sieben IgG-Spezies enthält. Bei 

allen Spezies ist die leichte Kette identisch. Demzufolge fallen die Massen aller leichten Ketten 

im Spektrum zusammen, so dass sie als intensive Peaks zum Vorschein treten (in Abb. 

2.3.1 als A13 bis A19 gekennzeichnet). Die Spezies unterscheiden sich durch die Zuckermodifikationen 

an der schweren Kette, welche sich bei der Gelenkregion (vgl. Abb. 2.2.3 a) befinden. 

In Kap. 2.1 wurde erwähnt, dass ein Analyt während der Ionisierung mehrere Ladungszustände 

annimmt. Im Spektrum äußert sich dies darin, dass es für den Analyten nicht nur einen 

Peak gibt, sondern einen für jeden Ladungszustand. Zur Illustration dient die Spezies E (vgl. 

Abb. 2.3.1) mit der Masse m=50373D. Ein Blick auf das Spektrum zeigt, dass dieses Molekül 

Ladungszustände zwischen 26 und 56 einnimmt. Die Peakposition im Spektrum lässt sich mit 

Hilfe der Molekülmasse und des Ladungszustandes berechnen. Beispielhaft wird der m/z-Wert 

für den Ladungszustand z=37 berechnet: 

24 

Abb. 2.3.1: Spektrum eines reduzierten IgG-Antikörpers. Die Beschriftung über den Peaks repräsentiert jeweils 

einen Peak aus einer Serie. Dabei stehen die Buchstaben für die Masse (vgl. Legende) und die Zahlen für den Ladungszustand. 

Auf der y-Achse ist die normierte Intensität aufgetragen. Hinweis: Aus Platzgründen wurden nicht 

alle Peaks einer Serie beschriftet. 

m + zH 50373D 

+ 37 ⋅1, 

008D 

m / z = = 

= 1362, 

44D 

(2.3.1) 

z 

37

Analog lässt sich auf diese Weise für jeden Ladungszustand einer Masse die genaue Position 

im Spektrum bestimmen. Die Gesamtheit aller Peaks die zu einer Masse gehören bezeichnet 

man als Peakserie. 

Wenn man mit Massenspektren arbeitet, ist es wichtig, sich über einige grundlegende Dinge 

klar zu werden [Gross04]: 

• Ein Massenspektrometer trennt nach dem Verhältnis Masse zu Ladung (m/z). 

• Ein Peak im Spektrum setzt sich aus der Durchschnittsmasse (der häufigsten Isotopenkombination) 

und allen anderen möglichen Isotopenkombinationen des Moleküls 

zusammen. 

• Die Peakbreite wird durch die Isotopen bestimmt. Außerdem verursachen Geräteparameter 

wie Auflösung und Gerätetyp eine zusätzliche Verbreiterung. 

Tabelle 2.3.1: Liste der Isotopenhäufigkeit 

einiger für die Massenspektrometrie 

relevanten Elemente. 

[Gross99] 

25

Die Masse eines Atoms berechnet sich aus der Summe der Neutronen und Protonen. Isotopen 

sind Atome gleicher Protonenzahl, aber unterschiedlicher Neutronenzahl und dadurch auch 

unterschiedlicher Massenzahl. 

Als monoisotopisch bezeichnet man Elemente, welche nur ein stabiles Isotop haben, z.B. Natrium, 

das nur als 23 Na stabil ist. Polyisotopisch werden diejenigen Elemente genannt, welche 

mehrere stabile Isotope aufweisen. Die Isotope eines Elements kommen mit einer gewissen 

Wahrscheinlichkeit in der Natur vor (vgl. Tabelle 2.3.1). Brom zum Beispiel kommt als 79 Br 

(relative Häufigkeit 50,69 %) und 81 Br (relative Häufigkeit 49,31 %) vor. Für Br2 ergibt sich 

eine durchschnittliche Masse von 159,8g/mol wenn man die im Periodensystem angegebenen 

relativen Atommassen zur Berechnung heranzieht. Betrachtet man nun das Spektrum, so sieht 

man folgende Signale: 

26 

[ 79 Br2] + bei m/z 158 

[ 79 Br 81 Br] + und [ 81 Br 79 Br] + bei m/z 160 

[ 81 Br2] + bei m/z 162 

Für m/z=159,8 gibt es aber kein Signal [Budzikiewicz92]. Die Isotopenverteilung hat zur Folge, 

dass man in einem Massenspektrum für ein Molekül nicht einen Strich beobachtet, sondern 

mehrere, welche zusammen die Peakform determinieren. Zur Illustration wird die B- 

Kette von Rinderinsulin herangezogen. In Abb. 2.3.2 a) ist die theoretische Isotopenverteilung 

der B-Kette dargestellt. Zusätzlich ist in Abb. 2.3.2 b) das gemessene Spektrum einer Probe, 

welche die B-Kette enthält, dargestellt. Hier findet man im intensivsten Peak die berechnete 

Isotopenverteilung wieder. Daneben weißt die empirische Messung noch weitere Peaks auf, 

welche wahrscheinlich von anderen in der Probe vorhandenen Massen stammen. 

Abb. 2.3.2: Dargestellt ist die B-Kette von Rinderinsulin (C157H233N40O41S2) 

(a) Berechnetes Isotopenmuster 

(b) Gemessenes Spektrum 

[Budzikiewicz92 S.62] 

Die Peakbreite wird neben der Isotopenverteilung noch durch das ESI-MS-Gerät beeinflusst, 

d.h. die Massen, welche im Spektrum noch getrennt abgebildet werden können, hängen entscheidend 

von der Auflösung R des Geräts ab:

m 

R = (2.3.2) 

∆m 

Dabei ist m die Masse, die interessiert, und �m der Massenunterschied, der aufgelöst werden 

soll. Die Auflösung gibt an, wann zwei Massen sichtbar getrennt werden können (vgl. Abb. 

2.3.3). Dafür gibt es zwei verschiedene Definitionen, wobei sich beide auf die relative Peakhöhe 

stützen: zwei Massen sind getrennt, wenn das Tal zwischen beiden Peaks kleiner gleich 

10% der Signalhöhe ist. Seit der Einführung der Quadrupol-Massenanalysatoren wird immer 

häufiger die Halbwertsbreite (FWHM; Breite des Peaks bei 50% Höhe) als Maß genommen. 

Der Grund liegt zum einen an der schlechteren Auflösung des Geräts (10% wäre somit eine zu 

starke Grenze) und zum anderen an der starken Verbreitung dieser Geräte. Demnach sind zwei 

Peaks getrennt, wenn sie mindestens den FWHM-Wert des Detektors voneinander entfernt 

sind (Rayleigh’sche Auflösungsgrenze). Letztere Definition der Auflösung wird auch in dieser 

Arbeit verwendet. [Gross04, Budzikiewicz92] 

Abb. 2.3.3: Geräte-Auflösung 

Oben: Definition der Auflösung bei 10% und 50% Talgrenze. 

[Gross04 S.96] 

Rechts: Theoretische Peakform der B-Kette von Rinderinsulin 

bei verschiedenen Auflösungen. Auf der x-Achse 

sind die m/z-Werte aufgetragen. Oben R=1000, Mitte 

R=5000 und unten R=10000. Man sieht wie mit steigender 

Auflösung die Peaks immer besser getrennt werden. 

Als Addukte bezeichnet man Massen, die durch Zusammenlagerung von im Lösungsmittel befindlichen 

Ionen mit dem Analyten entstehen. Bei Verwendung einer salzhaltigen Lösung entstehen 

Alkali-Addukte, d.h. es lagern sich n-fach viele Na + und K + an die Moleküle an. Ob 

und wie viele Ionen sich anlagern, hängt zum einen von der Struktur des Analyten ab und zum 

anderen von dem Gehalt an Salzen in der Lösung. Abhängig von der Masse des Moleküls und 

der Geräteauflösung kann man die Adduktsignale im Spektrum als eigenständige Peaks erkennen 

oder sie sind nur als Verbreiterung des Peaksockels angedeutet. Ein Beispiel für Adduktsignale 

kann man Abb. 2.3.4 entnehmen. Als weitere Folgen der Adduktbildung können 

Signale anderer Massen durch Adduktsignale überlagert werden, was eine Quantifizierung erschwert. 

27

Als Basislinie bezeichnet man denjenigen Signalanteil im Spektrum, welcher vom Gerät verursacht 

wird. Die Höhe der Basislinie hängt stark von den gewählten Geräteparametern ab. Im 

Falle von ESI-Spektren sind häufig schwache Addukt-Signale auch Mitverursacher der Basislinie. 

Von jeder gemessenen Masse können sich n-fach geladene Addukt-Varianten bilden. 

Hierbei treten v.a. die höher geladenen Varianten gar nicht mehr als echte Peaks in Erscheinung, 

weil sie aufgrund ihrer geringen Intensität im Spektrum untergehen. Vielmehr tragen all 

diese schwach intensiven Addukte in der Summe zu einer Erhebung der Basislinie bei (vgl. 

Abb. 2.3.5). Vor der quantitativen Analyse sollte die Basislinie – sofern vorhanden – durch 

ein geeignetes Verfahren erkannt und anschließend vom Spektrum abgezogen werden. Dadurch 

wird verhindert, dass die Intensitäten des gemessenen Spektrums ein falsches Verhältnis 

widerspiegeln. 

28 

Abb. 2.3.4: Gezeigt ist der Ausschnitt aus einem ESI-MS-Spektrum von 

IgG. Der Antikörper wurde vor der Messung reduziert. Dargestellt sind die 

leichten Ketten sowie drei Addukt-Modifikationen davon. m ist die Molekularmasse 

in D und z ist der Ladungszustand. Bei der schweren Kette 

sind die Adduktsignale in der Regel nicht mehr aufgelöst, weil die Signale 

zu nahe beieinander liegen und deswegen überlappen. Stattdessen sieht 

man eine Verbreiterung des Peaksockels. 

Abb. 2.3.5: 

Oben: ESI-Spektrum eines Antikörpers. Die Basislinie 

ist durch einen schwarzen Strich dargestellt. Die 

Hüllkurve der leichen Kette ist durch schwarze Kreuze 

angedeutet. Es handelt sich hierbei um eine bimodale 

Verteilung. 

Unten: Vergrößerter Ausschnitt des linken Teils des 

oben abgebildeten Spektrums.

Die Hüllkurve repräsentiert die Ladungsverteilung eines Analyten. Man kann sie in einem 

Spektrum sehen, indem man eine gedachte Kurve durch alle Maxima einer Peakserie legt (vgl. 

Abb. 2.3.5). Die Entstehung der Hüllkurve hat ihren Ursprung im Ionisierungsprozess (vgl. 

Kap. 2.1). Hierbei können die Analyten abhängig von ihrer 3D-Struktur mehr oder weniger 

stark ionisiert werden. Deren Fähigkeit, Ladungsträger aufzunehmen, folgt einer statistischen 

Verteilung. Der Mittelpunkt der Verteilung entspricht dem Optimum an Ladungsträgern, die 

ein Molekül aufnehmen kann. Anschaulich heißt dies, dass im Spektrum der intensivste Peak 

einer Serie dem Optimum entspricht. Vom Optimum abweichende Ladungszahlen weisen im 

Spektrum eine geringere Intensität auf. 

Die in Abb. 2.3.5 dargestellte Hüllkurve ist nicht uni-modal sondern bi-modal, wie man an 

den zwei lokalen Maxima der Hüllkurve erkennen kann. Dies deutet auf mehr als eine Konformation 

des Moleküls hin. Die Ursache für das Vorhandensein mehrerer 3D-Strukturen lässt 

sich im verwendeten Lösungsmittel finden. Die verwendeten Pufferlösungen sind meist so 

ausgelegt, dass die Analyten in ihrer Fähigkeit, Ladungen aufzunehmen, gestärkt werden. Faktoren 

wie Detergenzien, Chaotrope, Alkohole etc. spielen dabei eine Rolle. Der pH-Wert aber 

ist sicherlich der bedeutsamste von allen. Verwendet man einen sauren pH-Wert, so können 

die Moleküle wesentlich mehr Ladungen aufnehmen. Diese Senkung hat aber noch einen 

zweiten Effekt: Ein Teil der Moleküle denaturiert mehr oder weniger stark, d.h. man erhält 

neben der nativen Konformation noch weitere Konformationen desselben Moleküls. Jede dieser 

3D-Strukturen folgt bei der Ionisierung einer eigenen Ladungsverteilung und im Spektrum 

beobachtet man schließlich abhängig von der Zahl an verschiedenen Konformation eine uni-, 

bi- oder sogar tri-modale Verteilung der Hüllkurve. Dass man keine n-fach modale Verteilung 

beobachtet, liegt daran, dass die diversen 3D-Strukturen oft auf ähnliche Weise Ladungen 

aufnehmen und dadurch quasi derselben Verteilung folgen. [Dobo01, Dobo03] 

2.4. Bestehende Software 

Viele Konzepte und Algorithmen, die im Rahmen dieser Arbeit benötigt werden, stehen in 

Form von Bibliotheken oder fertigen Programmen dem Interessenten / Käufer zur Verfügung. 

Ein Hauptproblem besteht jedoch darin, dass es sich hierbei oft um Speziallösungen handelt. 

Somit wäre der Erwerb einer großen Zahl an Softwarelösungen notwendig, welche sich zudem 

schlecht miteinander verknüpfen ließen, um den erwünschten Arbeitsablauf zu gewährleisten. 

Im Folgenden werden einige Produkte, welche im Bereich der Massenspektrometrie anzusiedeln 

sind, kurz vorgestellt. 

Für die Berechnung der theoretischen Isotopenverteilung kann man z.B. das von Fernandez et 

al. entwickelte Web-Tool „Isotopica“ verwenden [Fernandez04]. Hiermit kann, ausgehend 

29

von einer chemischen Formel, DNA/RNA- oder Aminosäuresequenz, die Isotopenverteilung 

für verschiedene Ladungszustände und Auflösungen ermittelt werden. Für die visuelle Kontrolle 

besteht die Möglichkeit, die Rohdaten des Spektrums zu laden, um eine Überlagerung 

zwischen der theoretischen Isotopenverteilung und dem Spektrum durchzuführen. Eine qualitative 

Analyse der im Spektrum vorhandenen Massen ist nur bedingt möglich. Es besteht zwar 

die Möglichkeit, Proteinmodifikationen manuell anzugeben, jedoch fehlt eine automatische 

Analyse, welche die wahrscheinlichsten Modifikationen selbständig ermittelt. Ein Werkzeug 

für die quantitative Analyse ist nicht vorhanden. 

Eine professionelle und weit verbreitete Softwarelösung für Massenspektrometrie-Geräte ist 

„MassLynx“ der Firma Waters. Sie ermöglicht die Akquisition von Rohdaten direkt vom 

Massenspektrometer und bietet eine Fülle von Analysewerkzeugen an. Darunter fallen auch 

Methoden für eine qualitative Analyse in Form einer „Maximum-Entropie“-Entfaltung [Reinhold92] 

des Spektrums und Methoden für „Quantitative High-Throughput“-Analysen. Ferner 

werden noch etliche Standardfunktionen wie Glättung, Basislinienkorrektur usw. angeboten. 

Bei der qualitativen Analyse erfährt man zwar, welche Massen im Spektrum vorhanden sind, 

jedoch gibt es keinen Aufschluss darüber, welche Glykovarianten den beobachteten Massen 

entsprechen. Eine automatische Glykosylierungsanalyse (d.h. Auflistung der den Massen entsprechenden 

Glykosylierungen) kann also nicht durchgeführt werden. Die als Zusatzpaket erhältliche 

„High-Throughput“-Quantifizierungsanwendung ist für (kleine) Peptide konzipiert. 

Deswegen ist dieses Paket für die Quantifizierung großer Moleküle nicht geeignet. 

„Grams/AI“ ist eine Plattform für die Entwicklung von Chromatographie- und Spektrometrieanwendungen. 

Ein Hauptunterschied zu anderen Produkten besteht darin, dass sie die Möglichkeit 

bietet, durch Makros erweitert zu werden. Man könnte also dafür ein Quantifizierungsmodul 

entwickeln. Jedoch sprechen die zu erwartenden Schwierigkeiten bei der Implementierung 

(viele Standardroutinen, wie etwa Fitting, müssten neu implementiert werden) und 

die Abhängigkeit, in die man sich dabei begeben würde, gegen eine solche Entwicklung. 

Eine Softwarelösung, die ihren Schwerpunkt auf die Datenanalyse setzt, ist „PeakFit“. Auch 

hier werden die üblichen Standardmethoden in diesem Umfeld, wie etwa Glättung oder Basislinienkorrektur 

usw., angeboten. Zusätzlich wird die Möglichkeit dargeboten, Peaks verschiedener 

Verteilungsfunktionen an das Spektrum zu fitten. Als Erweiterung davon kann man mit 

diversen Peakfunktionen eine Entfaltung des Spektrums durchführen. Der Hauptnachteil hierbei 

ist, dass dieser Prozess sehr allgemein gehalten ist. Man kann z.B. keine Massen (Signalserien) 

angeben, die als Basis für die Entfaltung dienen sollen. Somit bleibt es bei ESI- 

Spektren eher dem Zufall überlassen, ob die richtigen Serien gefunden werden oder nicht. 

„Massfinder I“ ist bei Roche im Rahmen einer Diplomarbeit [ELehmann05] entstanden, welches 

speziell für die qualitative Analyse von ESI-Massenspektren entwickelt worden ist. Ausgehend 

von einem Spektrum und dessen MaxEnt-Entfaltung kann mit Massfinder ermittelt 

30

werden, welche Massen im Spektrum vorhanden sind. Ein weiteres wichtiges Feature besteht 

in der Bestimmung der Glykosylierungsvarianten. So ist im Falle von Antikörpern eine Zuordnung 

der Glykosylierungsmodifikation zu einer im Spektrum vorhandenen Spezies möglich. 

Hierzu muss die Masse des nackten Antikörpers (ohne Zucker) angegeben werden. Ein 

genetischer Algorithmus ermittelt basierend darauf und einer gegebenen Modifikationsliste 

die in Frage kommenden Varianten. Eine Möglichkeit zur Quantifizierung ist nicht vorhanden. 

Es gibt bereits eine bestehende In-House Entwicklung für die Quantifizierung großer Moleküle. 

Diese führt die Quantifizierung auf der 4. Ableitung des Spektrums durch, weil hier das 

Hintergrundsignal von den Peaks getrennt ist. Die Messung auf der 4. Ableitung ist unproblematisch, 

weil die Peakintensitäten proportional zu den Intensitäten des originalen Spektrums 

sind. Obwohl der Rechenprozess komplett automatisiert ist, bedarf es für die Ausführung des 

Programms einer Parameterdatei. In dieser müssen neben anderen Kenngrößen die Massen, 

die freien Ladungszustände sowie der Bereich, in dem sich die Halbwertsbreiten der Peaks befinden 

definiert werden. Das ist auch der Hauptnachteil bei dieser Lösung, denn die Anforderung, 

für jedes zu quantifizierende Spektrum eine neue Parameterdatei zu erstellen, macht das 

Programm unflexibel. 

Dieser kurze Überblick zeigt, dass es Softwarelösungen auf dem Markt gibt, diese jedoch den 

Anforderungen (vgl. folgendes Kapitel) nicht gerecht werden: 

• Ein Produkt allein ist nicht ausreichend, um das gewünschte Ergebnis zu erzielen, 

folglich kommen Mehrkosten durch den Erwerb zusätzlicher Lizenzen und die Einarbeitungszeit 

zustande. 

• Eine befriedigende Quantifizierungslösung ist in keinem der hier vorgestellten Produkte 

vorhanden. Es besteht zwar eine In-House Entwicklung, diese ist jedoch nicht 

flexibel genug, wenn es darum geht, mit geringem Zeitaufwand verschiedene Spektren 

zu quantifizieren. 

• Die meisten käuflichen Lösungen sind für kleine Peptid-Massen entwickelt worden. 

Deren Spektren sind leicht zu handhaben und somit gestaltet sich auch die Quantifizierung 

der darin enthaltenen Massen als relativ unproblematisch. 

• Der Schwerpunkt der Anforderungen hier liegt in der Entwicklung einer Quantifizierungslösung 

für große Moleküle, nämlich Antikörper. Deren Spektren sind weitaus 

komplexer als die kleiner Peptidmoleküle. So muss man hier mit Rauschen, Addukt- 

Signalen und Überlagerungen von Peaks zurechtkommen, was eine Quantifizierung 

erschwert. 

• Eine Vereinigung von qualitativer und quantitativer Analyse großer Moleküle, welche 

den Arbeitsablauf beschleunigen würde, ist in keinem Produkt zu finden. 

All diese Punkte führen zu dem Schluss, dass es für die Lösung des Problems auf dem Markt 

keine ausreichend guten Produkte gibt. Somit ist eine Eigenentwicklung anzustreben, welche 

den Anforderungen gerecht wird. 

31

2.5. Anforderungen 

Ziel dieser Arbeit ist es, Konzepte für die Quantifizierung von ESI-MS-Spektren zu entwickeln, 

sowie deren Realisierung in einem Softwareprodukt umzusetzen. Der Schwerpunkt 

wird auf die Quantifizierung schwerer Biomoleküle wie z.B. Antikörper gelegt. Die Verarbeitung 

kleiner Moleküle wie z.B. Interferon soll aber auch möglich sein. 

Mit „Massfinder I“ wurde bereits ein Schritt in die Softwareentwicklung für ESI-MS-Geräte 

unternommen. Wie bereits erwähnt, deckt „Massfinder I“ die qualitative Analyse von Antikörper-Massenspektren 

ab. Die bestehende Lösung soll um Mechanismen für eine quantitative 

Analyse erweitert werden, so dass ein optimaler Arbeitsablauf von der Erfassung der im 

Spektrum vorhandenen Spezies bis zur Bestimmung ihrer Anteile entsteht. Da die Integration 

von Quantifizierungslösungen tief in Massfinder verankert werden soll, war eine Einarbeitung 

in den bestehenden Quellcode und dessen Organisationsstruktur notwendig. 

Bei einem Gespräch mit den verantwortlichen Personen hat sich herauskristallisiert, dass eine 

Methode gewünscht wird, die einfach zu bedienen ist, robust ist und ähnlich gute Ergebnisse 

liefert wie die per Hand durchgeführte Quantifizierung. Robust heißt, dass das Programm 

auch für schlechte Spektren, die stark verrauscht sind oder Verunreinigungen enthalten, noch 

gute Resultate liefert. Außerdem soll der Quantifizierungsprozess soweit wie möglich automatisiert 

werden. Der Anwender soll demnach im Hintergrund stehen und nur an einigen wenigen 

Stellen helfend eingreifen. Dieses Prinzip wird im Folgenden als semiautomatische Quantifizierung 

bezeichnet. Neben der Entwicklung semiautomatischer Methoden besteht die Anforderung, 

dass mit der Weiterentwicklung von MF auch die manuelle Bestimmung der Massenverhältnisse 

möglich sein soll. 

Ein genauer Lösungsweg für die Quantifizierung wurde nicht formuliert. Vielmehr wurden die 

zu erwartenden Probleme dieser Aufgabenstellung kurz angesprochen: Sowohl die Basislinie 

als auch Adduktsignale verfälschen die Peakintensität. Folglich muss für eine korrekte Messung 

der Verhältnisse die Basislinie abgezogen werden sowie Adduktsignale auf geeignete Art 

und Weise erkannt werden. Ein weiterer Störfaktor von Spektren ist Rauschen. Normalerweise 

werden Aufnahmen, in denen fremde Komponenten das Spektrum stören, neu getätigt. Um 

dem zu begegnen, könnte man aber auch einen Filter entwickeln, welcher die Signalqualität 

steigert, so dass auf dem gefilterten Spektrum gearbeitet werden kann. Als letzter Punkt wurde 

angedeutet, dass die korrekte Bestimmung der Hüllkurve hilfreich wäre, weil dadurch eine 

Quantifizierung über alle Ladungszustände möglich wäre, was die Genauigkeit der Messung 

steigert. Demzufolge müssen Methoden für das Filtern des Spektrums, für die Erkennung von 

32

Peak-Überlappungen und für die Bestimmung der Hüllkurve entworfen werden, um anschließend 

die Quantifizierung durchzuführen. 

Die manuelle Variante unterscheidet sich von der semiautomatischen Variante dadurch, dass 

hierbei der Benutzer bei allen Schritten vollständige Kontrolle über die Aktionen hat. Einzig 

die Berechnung der Peakhöhen und der damit verbundenen Quantitäten wird automatisiert – 

eine Messung der Höhe mit Lineal entfällt also. 

Es ist eine weitestgehend automatisierte Quantifizierungpipeline erwünscht, welche a) schneller 

durchführbar ist als die manuelle Variante und b) bessere oder ähnlich gute Ergebnisse liefert 

wie diese. Die Ergebnisse einer Messung sollen in tabellarischer Form präsentiert werden. 

Die Herausforderung besteht somit darin, gute Lösungswege (vgl. dazu Kap. 3.1) für die skizzierten 

Probleme zu entwickeln. 

33

3. Konzepte 

In diesem Kapitel werden die einzelnen Bausteine, welche in der Quantifizierung Verwendung 

finden, im Detail vorgestellt. Um den Zusammenhang zwischen den Grundbausteinen 

besser zu verstehen, wird zunächst eine Übersicht über das entworfene Gesamtkonzept gegeben. 

Hierbei werden die möglichen Arbeitsabläufe einer Quantifizierung gezeigt und auf mögliche 

Probleme wird kurz hingewiesen. 

3.1. Lösungswege 

Ausgehend von einem gemessenen Spektrum stellen sich die Fragen, welche Komponenten 

vorhanden sind und in welchen Verhältnissen diese zueinander stehen. Die erste Frage kann 

bereits mittels „Massfinder I“ beantwortet werden [ELehmann05]. Die Beantwortung der 

zweiten Frage, d.h. die Bestimmung der Quantitäten der im Spektrum vorhandenen Spezies, 

kann auf mehrere Arten erfolgen. 

Abb. 3.1.1: Das Flussdiagramm zeigt die möglichen 

Quantifizierungswege in Massfinder II. 

Der bevorzugte Weg ist blau markiert. 

Für alle Quantifizierungsvarianten (vgl. Abb. 3.1.1) kann optional eine Glättung und eine Basislinienkorrektur 

des Spektrums durchgeführt werden. Ersteres muss bei sehr stark verrauschten 

Spektren angewendet werden, da sonst die Peakintensitäten nicht richtig erkannt werden. 

35

Ein starkes Rauschen hat man z.B. dann, wenn man Aufnahmen von geringen Probenmengen 

macht. Hierbei ist eine starke Amplifizierung des Signals notwendig, was ein verstärktes Rauschen 

mit sich bringt. Die Basislinienkorrektur wird verwendet, um das durch das Gerät verursachte 

Signal sowie unerwünschte schwache Addukt-Signale herauszufiltern. 

Nach diesen zwei optionalen Schritten findet eine Peakauswahl statt, d.h. es wird angegeben, 

welche Peaks jeder Serie für die Quantifizierung verwendet werden sollen. Für diesen Auswahlprozess 

werden drei Möglichkeiten geboten: 

1) Manuell: Der erfahrene Anwender wählt die Peaks per Hand aus. 

2) Schnittmenge: Für jede zu quantifizierende Spezies wird der minimal und der maximal 

mögliche Ladungszustand ermittelt. Es wird die Schnittmenge gebildet, so 

dass man das größte Minimum und das kleinste Maximum erhält. Für jede Spezies 

werden die entsprechenden Ladungszustände in diesem Bereich selektiert. 

3) Schnittmenge & nicht überlappend: Analog zu 2) und zusätzlich gilt, dass die ausgewählten 

Peaks nicht mit Peaks anderer Massen überlappen dürfen. 

4) Alle: Es werden von jeder Spezies alle Ladungszustände ausgewählt. 

Der Sinn hinter Variante 2) ist folgender: Man nimmt an, dass verschiedene Spezies eines Basismoleküls 

eine ähnliche Ladungsverteilung haben, d.h. die Hüllkurve ist ähnlich. Sofern 

man jetzt nicht über alle Peaks, sondern nur über eine Teilmenge der im Spektrum vorhandenen 

Peaks quantifiziert, sollten von allen beteiligten Spezies nur homologe Ladungszustände z 

betrachtet werden. 

Um dies zu verdeutlichen hier ein Beispiel: Angenommen, die Hüllkurve I(z) (Intensität I gegen 

Ladungszustand z) von Spezies A und Spezies B sei Gauß-Verteilt, d.h. es gilt 

I(z)=GAUSS(z;Amplitude,Mittelpunkt,FWHM). Sei weiterhin angenommen, dass Spezies A 

und Spezies B sehr ähnlich sind, d.h. wenn man die Parameter der beiden Verteilungen betrachtet, 

unterscheiden sie sich nur in der Amplitude: 

36 

Spezies A Spezies B 

Amplitude 800 1000 

Mittelpunkt 30 30 

FWHM 10 10 

Für eine Quantifizierung von Spezies A und Spezies B im Sinne von Variante 2) wählt man 

gleiche Ladungszustände aus und berechnet daraus das Verhältnis. Exemplarisch wird z=40 

gewählt, damit erhält man für die Intensität an dieser Stelle ISpeziesA(40;800,30,10)=50,0 und 

ISpeziesB(40;1000,30,10)=62,5, was einem Verhältnis von 44,44 % (Spezies A) zu 55,56 % 

(Spezies B) entspricht. Dieses Ergebnis entspricht überaus gut dem Verhältnis der Flächen 

beider Verteilungen. Würde man aber für Spezies B z=30 anstatt z=40 wählen, so erhält man 

ISpeziesB(30;1000,30,10)=1000, was ein Verhältnis von 4,76 % zu 95,24 % bedeuten würde – 

ein falsches Ergebnis. Man muss also gleiche z-Werte gegenüberstellen, um ein korrektes Ergebnis 

zu erhalten. Diese Annahme gilt natürlich nur dann, wenn verschiedene Varianten ei-

nes Basismoleküls betrachtet werden, d.h. ähnliche Moleküle. Falls gänzlich unterschiedliche 

Moleküle betrachtet werden, sollte man über alle Peaks quantifizieren, da hier die Hüllkurven 

u.U. völlig anders verteilen und sich somit in mehr Parametern als nur der Amplitude unterscheiden. 

Bei Variante 3) wird versucht, zusätzliche Störquellen auszuschließen, indem nur diejenigen 

Peaks betrachtet werden, die nicht mit anderen Peaks überlappen. Um Überlappungen zu erkennen, 

muss jedoch die Peakform einer Masse bekannt sein. Diese wird im Wesentlichen 

durch die Isotopenverteilung determiniert. 

Die erste Variante sollte dem erfahrenen Anwender überlassen werden. Damit soll gewährleistet 

werden, dass auch Spezialfälle behandelt werden können. Variante 3) sollte angewendet 

werden, wenn die tatsächliche Hüllkurve einer Spezies nicht bekannt ist. Ist die Hüllkurve einer 

Serie bekannt bzw. wird sie durch geeignete Verfahren bestimmt, so sollte Variante 4) benutzt 

werden. 

Der letzte Schritt vor der Quantifizierung ist ebenfalls optional und beinhaltet die Bestimmung 

der tatsächlichen Hüllkurve einer Peakserie. Im Idealfall kann durch die Bestimmung 

der Hüllkurven aller Peakserien das komplette Spektrum erklärt werden, d.h. die Summe der 

simulierten Peakserien entspricht gerade der gemessenen Kurve (vgl. Abb. 3.1.2). Das Auffinden 

der Hüllkurve wird mit Methoden aus dem Curve-Fitting gelöst. 

Abb. 3.1.2: Dargestellt ist ein hypothetisches 

Spektrum (schwarz). Des 

Weiteren sind die Peakserien (rot, 

grün und blau) eingezeichnet, deren 

Summe dem beobachteten Signal 

entspricht. 

Bei einfachen Spektren, die über kaum signifikante Überlagerungen verfügen muss die Hüllkurve 

nicht notwendigerweise bestimmt werden. Bei komplexen Spektren, wie sie im Falle 

von Antikörpern auftreten, ist allerdings die Bestimmung der Hüllkurve sehr empfehlenswert, 

da, wie in der Validierung später gezeigt wird, diese zu einem der besten Quantifizierungsergebnisse 

führt. 

37

Nach optionaler Bestimmung der Hüllkurve kann die Fläche jeder Serie berechnet werden und 

die Resultate können in Relation gesetzt werden, so dass man von jeder Masse die relativen 

Anteile am Spektrum erhält. 

Für eine erfolgreiche Bestimmung der Quantitäten muss / müssen u.a. 

38 

• die Peakserien simuliert werden und zwar hinsichtlich Isotopenverteilung und ESI- 

MS-spezifischer Verbreiterung der Peaks, 

• das Spektrum – falls zu stark verrauscht – geglättet werden, 

• die Basislinie – sofern vorhanden – abgezogen werden, 

• diejenigen Peaks jeder Serie ausgewählt werden, welche zur Quantifizierung herangezogen 

werden sollen, 

• die tatsächliche Hüllkurve jeder Serie bestimmt werden. 

Jeder dieser Schritte ist mit Einschränkungen bzw. Schwierigkeiten verbunden. Bei der Glättung 

darf die Form eines Peaks nicht verändert werden, bei der Basislinienkorrektur darf nicht 

zuviel vom Spektrum abgezogen werden, bei der Isotopenverteilung muss die Verbreiterung 

der Peaks simuliert werden und bei der Entfaltung des Spektrums hat man das Problem, dass 

Peaks häufig durch andere überlagert sind (welcher Peak trägt zu welchem Anteil zum gemessenen 

Signal bei?), was eine korrekte Bestimmung der Hüllkurve erschwert. 

3.2. Glättung 

Eine Glättung des Spektrums kann optional durchgeführt werden, um das Signal-zu-Rausch- 

Verhältnis der y-Ordinaten zu verbessern. Falls das Spektrum wenig Rauschen besitzt, sollte 

auf eine Glättung verzichtet werden, da diese für die Analyse keine Vorteile bringen würde. 

Sind die Daten hingegen sehr stark verrauscht, so ist eine Glättung durchaus empfehlenswert 

(vgl. Abb. 3.2.2). Die verbesserte Signalqualität führt zu einem besseren Erkennen der Peaks 

sowie der Basislinie. Ersteres ist auch für das Fitting der Hüllkurve von Bedeutung. 

Eine wichtige Eigenschaft, welche die Glättung erfüllen muss, ist, dass die Peaks nicht verschoben 

oder verformt werden. Ist diese Bedingung nicht erfüllt, können Fehler bei der Quantifizierung 

die Folge sein. 

Die elementarste Glättungsmethode ist „moving window averaging“ [NR]. Ein Fenster einer 

festgelegten Größe wird über die y Ordinaten geschoben, beginnend bei y0 und endend bei 

yLen-1, wobei Len die Anzahl der Datenpunkte ist. Für jede Position i wird der Durchschnitt der 

im Fenster befindlichen y Werte berechnet. Als Ergebnis erhält man für jede Stelle i den lokalen 

Durchschnittswert von y. Dieser Prozess lässt sich wie folgt beschreiben:

Man betrachtet um einen Datenpunkt yi nL Punkte links davon und nR Punkte rechts davon, insgesamt 

�=nL+nR+1 Punkte. Dies entspricht dem Fenster, welches über die Datenpunkte geschoben 

wird. Die Ordinaten werden mit einem Gewichtungsfaktor cn multipliziert. Bei „moving 

window averaging“ ist cn=1/�. 

= ∑ 

= − 

R n 

i cn 

n nL 

g y 

(3.2.1) 

i+ 

n 

Dieses Verfahren kann für Spektren nicht angewendet werden, obwohl es auf den ersten Blick 

seinen Zweck, nämlich das Rauschen zu vermindern, zu erfüllen scheint. Die Methode bringt 

nämlich zusätzliches unerwünschtes Rauschen ins Signal, weil sie sehr stark dazu neigt, Peaks 

in ihrer Intensität zu vermindern (vgl. Abb. 3.2.1). 

Savitzky und Golay haben 1964 einen Glättungsalgorithmus (genannt: Savitzky-Golay oder 

least-squares) speziell für Spektren entwickelt, welcher die Eigenschaft hat, das Rauschen zu 

eliminieren, ohne dabei die Intensität der Peaks zu verändern [SavGol64]. Hierbei wird die 

Annahme gemacht, dass die x-Ordinaten äquidistant sind und dass nur die y-Daten verrauscht 

sind. Die Methode von Savitzky und Golay ist bis auf die Bestimmung des Gewichtungsfaktors 

cn analog zum „moving window averaging“-Algorithmus. Um gute Gewichtungsfaktoren 

für die im Fenster befindlichen Punkte zu erhalten, wird ein Fitting eines Polynoms M-ten 

Grades auf die Ordinaten y i-n ,..., y 

L i+ 

n durchgeführt. Das Polynom hat die Form: 

R 

k M 

k 

M 

f i = ∑ aki 

= a + a i + + aM 

i -nL 

≤ i ≤ 

k 

= 

( ) 

0 1 ... wobei 

= 0 

n 

R 

(3.2.2) 

Die Parameter a werden so gewählt, dass der quadratische Fehler χ², d.h. die Differenz zwischen 

berechneten und tatsächlichen Punkten, minimiert wird. 

2 

i 

n 

∑ 

n= 

−n 

= R 

( f ( i + n) 

− y ) 

L 

2 

i+ 

n 

χ (3.2.3) 

Um die Parameter a zu finden, welche χ² minimieren, wird die erste Ableitung nach den Parametern 

gebildet. Hierbei erhält man: 

39

40 

∂ 

0 = 

∂a 

= 2 

⇒ 

⇒ 

R 

∑ ⎜⎜ 

∑ 

i= 

−nL 

n 

R 

∑ ∑ 

∑ 

k= 

0 

R 

∑ 

r n= 

−nL 

⎛⎛ 

⎜ 

⎝⎝ 

n= 

−nL 

k= 

0 

M 

n 

a 

n 

M 

( f ( i + n) 

− y ) 

k= 

M 

n 

k= 

0 

k 

R 

∑ 

k 

n= 

−nL 

k ⎞ 

ak 

( i + n) 

⎟ − y 

⎠ 

a ( i + n) 

( i + n) 

k+ 

r 

k+ 

r 

2 

i+ 

n 

= 

= 

R 

∑ 

i+ 

n 

n= 

−nL 

n 

n 

R 

∑ 

∂ 

= 

∂a 

i+ 

n 

y 

y 

i+ 

n 

n= 

−nL 

n 

R 

∑ ⎜⎜ 

∑ 

r n= 

−nL 

⎞ 

⎟ 

⎟( 

i + n) 

⎠ 

( i + n) 

( i + n) 

r 

⎛⎛ 

⎜ 

⎝⎝ 

r 

r 

k= 

M 

k= 

0 

Man bekommt also ein lineares Gleichungssystem: 

α 

k+ 

r 

β = 

k 

= 

nR 

nR 

n= 

−nL 

∑ 

∑ 

n= 

−nL 

( i + n) 

( i + n) 

[ α k+ 

r ] a = [ βk 

] k, 

r 

k 

k 

k+ 

r 

y 

i 

k ⎞ 

ak 

( i + n) 

⎟ − y 

⎠ 

i+ 

n 

⎞ 

⎟ 

⎠ 

2 

(3.2.4) 

(3.2.5) 

Um den Parametervektor a zu bestimmen, wird das Gleichungssystem mit LU- 

Dekomposition, Cholesky-Dekomposition oder Gauß-Jordan-Elimination gelöst. Die Komponenten 

des Parametervektors a werden als Gewichtungskoeffizienten cn in Gl. (3.2.1) verwendet. 

Der so beschriebene Prozess hat den Nachteil, dass das Fitting für jede Fensterbewegung neu 

durchgeführt wird. Dies ist aber nicht notwendig, weil die Koeffizienten des angepassten Polynoms 

innerhalb des Datenbereichs linear sind, d.h. das Fitting muss nur einmal durchgeführt 

werden. Hierzu verwendet man fiktive Ordinaten, welche bis auf y0=1 überall gleich null sind. 

Anschließend kann mit den so berechneten Gewichtungskoeffizienten cn jeder beliebige äquidistante 

Datensatz geglättet werden. [NR] 

Der Savitzky-Golay-Algorithmus benötigt äquidistante Datenpunkte, um eine gute Glättung 

durchzuführen. Die gemessenen Spektren sind jedoch nicht äquidistant. Deswegen findet vor 

der Glättung eine lineare Interpolation der Spektren statt, so dass das Intervall 0.02 amu beträgt. 

Die lineare Interpolation bewirkt an dieser Stelle de facto keine Verfälschung der Signale, 

weil die Datendichte der gemessenen Spektren sehr groß ist. 

Als Standardparameter für die Glättung von Antikörperspektren werden 91 Datenpunkte festgelegt 

sowie ein Polynom 9ten Grades. Ein geringerer Polynomgrad bewirkt bei manchen 

Spektren eine Verminderung der Peakhöhe. Ein Polynom höheren Grades kann nicht verwendet 

werden, weil der Rechenaufwand zu groß wird. Dies ist aber auch nicht notwendig, weil

mit einem Polynom 9ten Grades die Signalintensität nicht signifikant verfälscht wird. Die Anzahl 

Datenpunkte, d.h. die Fenstergröße legt fest wie stark die Glättung ist. Je mehr Datenpunkte 

gewählt werden, desto globaler wird die Glättung durchgeführt und umso mehr gehen 

die lokalen Eigenschaften des Spektrums verloren. Der Wert 91 hat sich beim Betrachten verschiedener 

Spektren als guter empirischer Wert erwiesen. 

Abb. 3.2.1: Vergleich von moving window 

averaging (Mitte) und Savitzky- 

Golay-Glättung (unten) eines Spektrums. 

[NR S.654] 

Als Implementierung des Savitzky-Golay-Algorithmus wurde die ANSI-C Version aus [NR] 

übernommen. 

Abb. 3.2.2: Spektrum eines monoklonalen 

Antikörpers. 

Oben: Unmodifiziertes Spektrum. 

Unten: Savitzky-Golay-Glättung des 

Spektrums mit einem Polynom 9ten 

Grades und 91 Datenpunkten. 

41

3.3. Basislinie 

Die Basislinie enthält fremdes Signal, welches, falls nicht abgezogen, zu einer Verfälschung 

des Quantifizierungsergebnisses führt. Deswegen ist es essentiell, die Basislinie abzuziehen. 

Algorithmen für die Erkennung der Basislinie gibt es viele. Jeder hat seine eigenen charakteristischen 

Eigenschaften mit Vor- und Nachteilen. Die Diversität der Ansätze entstand nicht 

zuletzt durch die unterschiedlichsten Anwendungsgebiete, für die sie entwickelt wurden. Bei 

manchen Spektren ist es z.B. ausreichend, einfach eine Linie abzuziehen, welche durch zwei 

Punkte bestimmt ist: Einen am Anfang und einen am Ende des Spektrums. Bei anderen sind 

Ansätze, die aus der Bildbearbeitung stammen, sinnvoll. Hierbei werden morphologische 

nichtlineare Filter angewendet, wie z.B. der „top-hat“-Operator [TopHat]. 

Bei einer Diskussion mit den Laboranten hat sich herauskristallisiert, dass sie im Wesentlichen 

zwei Ansätze wählen, um die Basislinie abzuziehen. Die einen ziehen die Basislinie mit 

einer lang gezogenen glatten Kurve ab, die durch das Spektrum gelegt wird, die anderen durch 

Linien von Peaktal zu Peaktal (vgl. Abb. 3.3.1). 

Um diese Methoden zu automatisieren, werden drei Algorithmen implementiert. Der erste 

entspricht der „Tal-zu-Tal“-Variante und wird durch Erkennung der lokalen Minima realisiert. 

Der zweite soll die lang gezogene Kurve nachempfinden und wird durch eine kubische Spline-Interpolation 

erkannt. Als Alternative zur kubischen Spline-Interpolation wird noch ein 

drittes Verfahren entwickelt, welches auf der 4. Ableitung des Spektrums beruht. 

42 

a) 

c) 

b) 

Abb. 3.3.1: Erkennung der Basislinie mittels kubischer 

Spline-Interpolation a) bzw. durch Legen einer Gerade 

von Tal zu Tal b). Vergrößerter Ausschnitt von b) ist in 

c) dargestellt.

3.3.1. Von Tal zu Tal 

Dieses Verfahren zieht von Peaktal zu Peaktal eine Gerade, welche der Basislinie entsprechen 

soll (vgl. Abb. 3.3.1). Die Suche nach den lokalen Minima kann relativ einfach implementiert 

werden, jedoch bereitet das Signalrauschen Schwierigkeiten. Selbst bei nur leicht verrauschten 

Spektren werden neben den Peaktälern viele weitere lokale Minima gefunden. Damit gewährleistet 

ist, dass nur die Minima der Peaktäler gefunden werden, wird vor die Suche ein Filter 

geschaltet, welcher das Spektrum glättet. Es handelt sich um den im vorigen Kapitel vorgestellten 

Savitzky-Golay-Filter. Als Parameter für die Glättung wird ein Polynom 4ten Grades 

verwendet und die Fensterbreite auf 41 Datenpunkte festgelegt. Des Weiteren wird die Glättung 

dreimal hintereinander ausgeführt. Der geringe Polynomgrad sowie das mehrmalige Hintereinander-Ausführen 

des Filters stellt sicher, dass das Spektrum sehr glatt ist. Es werden also 

mit hoher Wahrscheinlichkeiten ausschließlich die Peaktäler erkannt. Das mehrmalige Filtern 

mit diesen Parametern bewirkt zwar eine Verfälschung der Peakintensitäten, jedoch spielt 

dies keine Rolle, weil nur die Lage der Minima von Interesse ist und nicht deren Höhe. Als 

Höhe der Minima wird die Intensität des original Spektrums an entsprechender Stelle genommen. 

Diese Methode hat den Nachteil, dass u.U. „echtes“ Peaksignal gelöscht wird und dadurch die 

Massenverhältnisse eines Spektrums verfälscht werden (vgl. Abb. 3.3.1.1). Nichts desto trotz 

hat sich in der Validierung (vgl. Kapitel 4) gezeigt, dass mit diesem Verfahren des Basislinienabzugs 

die Ergebnisse einer Quantifizierung i.d.R. besser werden. 

3.3.2. Kubische Spline-Interpolation 

Abb. 3.3.1.1: Faltung (rote Kurve) zweier 

Peaks (graue Kurven). Mit dem „Tal-zu-Tal“- 

Verfahren wird auch Signalanteil abgezogen. 

Dies verfälscht die Intensitäten und somit 

u.U. auch die relativen Verhältnisse der 

Peaks. 

Der Algorithmus für diese Variante der Basislinienerkennung funktioniert auf folgende Art 

und Weise: Das Spektrum wird in M Teile gespalten. In jedem dieser Teilbereiche wird eine 

Suche nach dem minimalen y-Wert durchgeführt. Alle so ermittelten Punkte, sowie der erste 

und letzte Punkt des Spektrums werden in eine neue Liste geschrieben. Die Ordinaten dieser 

43

Liste werden durch eine kubische Spline-Interpolation verbunden und man erhält eine Basislinie 

für das Spektrum. Durch die Größe von M kann festgelegt werden, wie hoch die Basislinie 

gezogen werden soll. Ein zu großer Wert kann aber zu unerwünschten Nebeneffekten führen, 

da dann der Spline eher dazu neigt, auszuschlagen. Als guter empirischer Wert für die Teilbereiche 

M hat sich 11 erwiesen. 

Die kubische Spline-Interpolation wird im Folgenden kurz erläutert: Gegeben ist ein Datensatz 

der Form (x1, f(x1)), (x2, f(x2)), …, (xn, f(xn)). Für jedes Intervall [xi, xi-1], wobei 2

Aufgrund der Einfachheit des Verfahrens wurde die Basislinie zunächst mit dem oben beschriebenen 

Verfahren erkannt. Bei der später durchgeführten Bewertung der Methoden hat 

sich aber herausgestellt, dass der Abzug der Basislinie sehr starke Auswirkungen auf die 

Quantifizierung hat (vgl. Kap. 4). Ein Fehler beim Erkennen der Basislinie kann also zu falschen 

Ergebnissen führen. Solche Fehler kommen bei dieser Variante bei ungünstiger Lage 

der zu verbindenden Punkte vor. Für den Anwender äußert sich dies visuell am Ausschlagen 

der interpolierten Basislinie in die falsche Richtung. Der Anwender kann diesen Fehler korrigieren, 

indem er einen anderen Wert für M findet. Weil dieser Methode die nötige Robustheit 

fehlt, wurde ein weiteres Verfahren für die Erkennung der Basislinie entwickelt. 

3.3.3. Vierte Ableitung 

Als Ergebnis der kubischen Spline-Interpolation erhält man eine Basislinie welche lang gezogen 

über das gesamte Spektrum liegt. Die Basislinie ist also ein niederfrequentes Signal innerhalb 

hochfrequenter Peaksignale. Der Ansatz mit dem kubischen Spline hat den Nachteil, 

dass die Fenstergröße M abhängig vom betrachteten Spektrum angepasst werden muss um gute 

Resultate zu erhalten. Im Folgenden wird ein gänzlich anderer Ansatz zur Elimination der 

Basislinie vorgestellt, welches nicht den erwähnten Nachteil besitzt. Der Grundgedanke hierbei 

bleibt jedoch der Gleiche: die Basislinie ist ein nieder frequentes Signal im Spektrum, d.h. 

ein Polynom geringen Grades. 

Es wird die vierte Ableitung des Spektrums durchgeführt. Dadurch verschwinden alle Polynome 

1ten, 2ten und 3ten Grades aus dem Signal. Die nieder frequente Basislinie ist also eliminiert 

und es bleiben nur die hochfrequenten Peaksignale übrig. Die Quantifizierung wird 

auf den positiven Teil der vierten Ableitung des Spektrums durchgeführt. 

Wie eben bereits angedeutet ist es mit Hilfe der Ableitung möglich, Polynome geringen Grades 

aus einem Signal zu entfernen. Eine weitere sehr wichtige Eigenschaft der Ableitung ist, 

dass die Amplitudenverhältnisse nicht verzerrt werden: Die Amplitude der n-ten Ableitung eines 

Peaks ist umgekehrt proportional zur n-ten Potenz ihrer Halbwertsbreite. Folglich trennt 

Ableiten nach der Peakbreite, d.h. je größer der Grad der Ableitung, desto größer die Trennung. 

[Haver05] 

Zur Illustration dient das folgende Beispiel (vgl. dazu Abb. 3.3.3.1). Eine Gauß-Kurve (blaue 

Kurve), welche den Peak repräsentiert, ist auf einem Polynom 3ten Grades moduliert (rote 

Kurve) (vgl. a). Führt man die zweite Ableitung des Gauß-Peaks und des modulierten Signals 

durch (vgl. b), so sieht man, dass im modulierten Signal ein beachtlicher Anteil des Polynoms 

3ten Grades bereits entfernt ist. Bei der 4. Ableitung bleibt von dem Polynom 3ten Grades 

nichts mehr übrig, wie man an der perfekten Überlagerung beider Signale sehen kann (vgl. c). 

45

Dieser Mechanismus funktioniert nur dann, wenn das Hintergrundsignal einen deutlich kleineren 

Polynomgrad aufweist, als die Peaks des Spektrums. Dies ist für die hier betrachteten Antikörper 

ESI-MS-Spektren der Fall. Das Betrachten einiger repräsentativer Spektren hat gezeigt, 

dass es sich bei der Basislinie immer um eine sehr breite Kurve handelt, die durch das 

Spektrum geht. In Folge dessen ist die vierte Ableitung ausreichend, um die Basislinie aus 

dem Signal zu löschen. Ein höherer Ableitungsgrad ist nicht notwendig und kann sogar schädlich 

sein, weil ab einem bestimmten Grad auch Peaksignale eliminiert werden. 

Die Quantifizierung der Spezies kann – wegen der erwähnten Proportionalität – auf der vierten 

Ableitung durchgeführt werden. Dazu werden nur die positiven Signalanteile benötigt, 

weil die Peaks die gleiche Position wie das Ausgangssignal haben und positiv sind. 

Um die Ableitung eines Signals zu erhalten, wird der Savitzky-Golay-Filter verwendet [Sav- 

Gol64, NR]. Der Vorteil dabei ist, dass die Ableitung bereits geglättet ist. Als Parameter für 

die Glättung haben sich folgende empirische Werte als gut erwiesen: Der Grad des Polynoms 

sollte auf 6 gesetzt werden und die Anzahl Datenpunkte des Fensters auf 91. 

3.4. Isotopenverteilung 

Die Isotopenverteilung eines Moleküls kann durch die Entfaltung seines Polynoms berechnet 

werden. 

46 

a) b) 

c) 

Abb. 3.3.3.1: Blaue Kurve: Gauß-Peak. Rote 

Kurve: Überlagerung eines Polynoms 3ten Grades 

mit dem Gauß-Peak (blaue Kurve). 

a) Ausgangssituation. Die Peakintensität im modulierten 

Signal (rote Kurve) ist nicht mehr eindeutig 

feststellbar. Beim reinen Peaksignal (blaue 

Kurve) hingegen ist die Intensität sauber. 

b) Zweite Ableitung beider Kurven. Das Hintergrundsignal 

aus der modulierten Kurve ist fast 

komplett entfernt. 

c) Vierte Ableitung beider Kurven. Das Hintergrundsignal 

ist verschwunden und die Kurven 

überlagern perfekt.

Seien a, b, c, … polyisotopische Elemente wobei a1, a2, a3, …, b1, b2, b3, …, c1, c2, c3, … die 

Isotope der Elemente repräsentieren. Sei na, nb, nc, … die Anzahl der Atome eines Elements 

im Molekül. Dann lässt sich die Isotopenverteilung eines Moleküls als Produkt von Polynomen 

darstellen: 

na 

nb 

nc 

( a a + a + ) ⋅ ( b + b + b + ... ) ⋅ ( c + c + c + ... ) ... 

1 

+ (3.4.1) 

2 

3 

... 1 2 3 

1 2 3 

Die Entfaltung des Polynoms gibt Informationen über die Isotopenzusammensetzung, deren 

Häufigkeit und deren Masse. Zur Verdeutlichung ein Beispiel mit BrCl3 + als Molekül [Budzikiewicz92]. 

( ) ( ) ( ) ( ) 

( ) ( ) 

( ) ( ) 

( ) ( ) 3 

79 81 35 37 3 79 35 3 79 35 2 37 

Br+ 

Br ⋅ Cl+ 

Cl = Br ⋅ Cl + 3⋅ 

Br ⋅ Cl ⋅ Cl 

79 35 37 2 79 37 3 

+ 3⋅ 

Br⋅ 

Cl ⋅ Cl + Br Cl 

81 35 3 81 35 2 37 

+ Br ⋅ Cl + 3⋅ 

Br ⋅ Cl ⋅ Cl 

81 35 37 2 81 37 

+ 3⋅ 

Br⋅ 

Cl ⋅ Cl + Br ⋅ Cl 

(3.4.2) 

Der Koeffizient vor jedem Term sagt aus, wie oft die entsprechende Isotopenkombination 

vorkommt. Die Potenz nach jedem Isotop steht für die Menge des Isotops in der jeweiligen 

Kombination. Die Häufigkeit kann man aus Tabelle 2.3.1 entnehmen, um damit für jeden 

Term die Frequenz zu bestimmen. Zur Vereinfachung werden die Verhältnisse hier gerundet 

und man erhält: 35 Cl=3, 37 Cl=1, 79 Br= 81 Br=1. Im letzten Schritt müssen Isotopenkombinationen 

gleicher Masse zusammengefasst werden. Das Ergebnis sieht dann so aus: 

m/z Isotopenmuster Peakintensität Normiert 

184 

79 35 

Br Cl3 1*3³=27 21% 

186 

79 35 37 81 35 

Br Cl2 Cl + Br Cl3 3*1*3²*1+1*3³=54 42% 

188 

79 35 37 

Br Cl Cl2 + 81 Br 35 37 

Cl2 Cl 3*1*3*1²+3*1*3²*1=36 28% 

190 

79 37 

Br Cl3 + 81 Br 35 Cl 37 Cl2 1*1³+3*1*3*1²=10 8% 

192 

81 37 

Br Cl3 1*1³=1 1% 

Die Anzahl der Kombinationen K kann mit dem Binomialkoeffizienten berechnet werden. Die 

Analogie findet sich in dem Urnenmodell „Ziehen mit Zurücklegen“ wieder. Die verschiedenen 

Kugelsorten q entsprechen den stabilen Isotopen eines Elements. Die Anzahl n der gezogenen 

Kugeln entspricht der Anzahl Atome des Elements: 

K 

⎛q + n −1⎞ 

; (3.4.3) 

⎝ n ⎠ 

( q n) 

= ⎜ ⎟ 

Zur Illustration dient wieder das Molekül BrCl3 + . Für Br erhält man KBr(2,1)=2 Kombinationen 

und für Cl3 erhält man KCl(2,3)=4 Kombinationen. Um die gesamte Menge an Permuta- 

47

tionen zu berechnen, multipliziert man die Resultate beider Elemente miteinander und erhält 

KBr(2,1)KCl(2,3)=8 Isotopenkombinationen. Dies entspricht exakt der Anzahl von Termen, 

welche durch die Entfaltung des Polynoms gewonnen wurden (vgl. obige Tabelle). 

Für die Ermittlung aller Isotopenpermutationen werden lineare diophantische Gleichungen 

verwendet [Chang84]. Das besondere an diesen Gleichungen ist, dass nur ganzzahlige positive 

Lösungen erlaubt sind: 

48 

q 

∑ 

j= 

1 

x 

j 

= n 

(3.4.5) 

xj ist der absolute Anteil des j-ten Isotops im Element. Seien z.B. drei Atome des Elements 

Sauerstoff in einem Molekül vorhanden. Sauerstoff hat drei stabile Isotope 16 O, 17 O und 18 O. 

Mit obiger Formel berechnet man, dass es insgesamt 10 Permutationen gibt: 

i x1= 16 O x2= 17 O x3= 18 O 

1 3 0 0 

2 2 1 0 

3 2 0 1 

4 1 2 0 

5 1 1 1 

6 1 0 2 

7 0 3 0 

8 0 2 1 

9 0 1 2 

10 0 0 3 

Es gibt also K Isotopenkombinationen. Die Häufigkeit Pi, 1

⎛ 

⎜ 

n! 

log Pi 

= log p 

⎜ 

⎝ x1! 

x2!... 

xq! 

= log 

= 

n 

∑ 

u= 

1 

( n! 

) 

log 

⎛ 

− log⎜ 

⎝ 

q 

q 

∏ 

u= 

1 

x 

u 

( u) 

− log( 

v) 

+ x log( 

p ) 

∑∑ 

u= 

1 v= 

1 

x1 

1 

p 

x 

2 

2 

... p 

x 

q 

⎞ ⎛ 

xu! 

⎟ + log⎜ 

⎠ ⎝ 

q 

⎛ 

⎜ 

⎞ 

⎟ = log 

⎜ 

⎟ ⎜ 

⎠ ⎜ 

⎝ 

q 

∑ 

u= 

1 

q 

∏ 

u= 

1 

u 

p 

x 

u 

u 

⎞ 

⎟ 

⎠ 

q 

∏ 

u= 

1 

n! 

u 

x ! 

u 

q 

∏ 

u= 

1 

p 

x 

u 

u 

⎞ 

⎟ 

⎟ 

⎟ 

⎟ 

⎠ 

(3.4.7) 

Es bleibt noch das Problem bestehen, dass die Anzahl der Permutationen K i.d.R. sehr groß ist 

und die Berechnung von log(Pi) zeitaufwendig ist. Yergey hat 1983 einen Weg vorgeschlagen, 

wie man die Bestimmung von log(Pi) beschleunigen kann. Es werden zwei beliebige Permutationen 

in Relation gesetzt, mit dem Ergebnis, dass ein Großteil der Variablen weggekürzt wird 

[Yergey83]: 

P 

P 

i+ 

1 

i 

⇒ P 

n! 

= 

n! 

i+ 

1 

q q 

xu 

pu 

u= 

1 u= 

1 

q q 

∏ ∏ 

∏ 

u= 

1 

⎛ 

= P 

⎜ i 

⎝ 

x 

q 

! 

∏ 

∏ 

u 

u= 

1 

u= 1 u 

' 

xu! 

= 

' 

u p 

x 

u 

' 

xu! 

p 

x ! 

' 

u 

xu 

−x 

u 

q 

∏ 

u= 

1 

q 

∏ 

u= 

1 

⎞ 

⎟ 

⎠ 

x 

x 

' 

u 

u 

! 

! 

q 

∏ 

u= 

1 

p 

' 

u 

xu 

−x 

u 

= 

q 

∏ 

u= 1 u 

' 

xu! 

p 

x ! 

' 

u 

xu 

−x 

u 

(3.4.8) 

Dieser Term wird im nächsten Schritt logarithmiert, wobei zur Vereinfachung der Schreibwei- 

se 

f 

u 

' 

x ! ' 

u xu 

−xu 

: = pu 

definiert wird, d.h.: 

x ! 

log 

u 

' 

u xu 

−xu 

( P ) = log( 

P ) + log⎜ 

p ⎟ = log( 

P ) 

i+ 

1 

= log 

i 

q 

( P ) + log( 

f ) 

i 

∑ 

u= 

1 

⎛ 

⎜ 

⎝ 

q 

∏ 

' 

x ! 

x ! 

u= 1 u 

Der Logarithmus von fu entspricht dabei: 

log 

( f ) 

u 

⎧ 

⎪ 

⎪ 

= ⎨ 

⎪ 

⎪ 

⎪⎩ 

x 

u 

∑ 

' 

v= 

xu 

+ 1 

log 

u 

u 

⎞ 

⎟ 

⎠ 

' ( v) 

− ( x − x ) log( 

p ) 

u 

0 

xu 

' ( xu 

− xu 

) log( 

pu 

) − ∑log( 

v) 

u 

' 

v= 

xu 

+ 1 

u 

x 

x 

x 

u 

u 

u 

i 

> x 

= x 

< x 

⎛ 

+ log ⎜ 

⎝ 

' 

u 

' 

u 

' 

u 

q 

∏ 

u= 

1 

f 

u 

⎞ 

⎟ 

⎠ 

(3.4.9) 

(3.4.10) 

49

Der Algorithmus für die Berechnung der Isotopenverteilung ist in Abb. 3.4.1 dargestellt. Zuerst 

wird die chemische Summenformel des Moleküls bestimmt. Anschließend wird für jedes 

Element die Isotopenverteilung berechnet, d.h. Bestimmung der nominellen Masse und der 

Häufigkeit für jede Isotopenkombination. Die Häufigkeiten gleicher Massen werden zusammengefasst. 

Sind alle Elemente behandelt, wird noch der Massendefekt korrigiert, indem die 

exakte Masse der häufigsten Isotopenkombination ermittelt wird und um den entsprechenden 

Differenzbetrag zur nominellen Masse korrigiert wird. Um den Vorgang noch weiter zu beschleunigen, 

wird nach jeder Berechnung der Isotopenhäufigkeit einer Kombination ein Pruning 

durchgeführt, d.h. wenn die Häufigkeit nicht mehr als 0,01 % vom aktuellen Maximum 

ausmacht, wird diese Kombination nicht weiter behandelt. 

Mit modernen Rechnern (P4 3.2 GHz) geht die Berechnung der Isotopenverteilung einer 

schweren Kette (~50 kD) in weniger als einer Sekunde von statten. Bei der Berechnung von 

10 schweren Ketten bedarf es etwa 3 Sekunden Rechenzeit. Sollte einmal der Bedarf vorhanden 

sein, mehrere Isotopenverteilungen in einem Batch zu berechnen oder größere Moleküle 

zu prozessieren, so sollte ein anderer Lösungsansatz gewählt werden. Deutlich schneller als 

der hier angewandte Multi-Nomial-Ansatz arbeitet zum Beispiel der von Rockwood et al. 

entworfene Algorithmus, welcher eine schnelle Fourier Transformation (FFT) zur Berechnung 

nutzt [Rockwood95]. Die im Rahmen dieser Arbeit behandelten Moleküle lassen sich alle relativ 

schnell berechnen und daher spielt die Zeit keine kritische Rolle. Somit wird auf die Im- 

50 

Abb. 3.4.1: Algorithmus für die Berechnung der Isotopenverteilung 

eines Moleküls

plementierung des von Rockwood et al. entwickelten Algorithmus zugunsten des einfacheren 

Multi-Nomial-Algorithmus verzichtet. 

Leider gibt es auch Fälle, bei denen keine Informationen über die Molekülstruktur vorhanden 

sind und somit eine chemische Formel nicht vorliegt. Eine Berechnung der Isotopenverteilung 

ist da nicht mehr möglich und es muss somit ein anderer Weg eingeschlagen werden, um die 

Peaks zu simulieren. 

Bei den Untersuchungen der Isotopenverteilung hat sich gezeigt, dass sich mit zunehmender 

Molekülgröße die Isotopenkurve immer mehr einer Gauß-Kurve nähert. Es würde sich also 

anbieten, die Peaks näherungsweise durch eine Gauß-Funktion darzustellen. Die Position der 

Funktion ist durch den m/z-Wert bestimmt, die Intensität durch die Intensität des Spektrums 

am jeweiligen m/z-Wert bzw. durch die Hüllkurve I(z), falls diese schon bestimmt ist. Der 

einzige fehlende Parameter ist die Halbwertsbreite. Diese könnte man bestimmen, indem man 

eine gedachte Linie auf halber Höhe legt, welche das Spektrum links und rechts schneidet. 

Der Abstand der beiden Punkte entspricht dann der Halbwertsbreite. Dieser Weg hat sich allerdings 

als nicht praktikabel erwiesen. Das Hauptproblem hierbei ist, dass es Massen im 

Spektrum geben kann, welche gar nicht als Peak in Erscheinung treten, d.h. die gedachte Linie 

schneidet das Spektrum nie. 

Als weitaus bessere Lösung bietet es sich an, die Summenformel abzuschätzen, um mit dieser 

in den Algorithmus für die Berechnung der Isotopenverteilung zu gehen. Für die Bestimmung 

der durchschnittlichen Aminosäure haben Senko et al. die statistische Verteilung der Aminosäuren 

in der PIR Protein Datenbank untersucht. Dabei sind sie auf folgende Summenformel 

gekommen: [Senko95] 

C4,9384H7.7583N1,3577O1,4773S0,0417 (3.4.11) 

Hiermit erhält man für die durchschnittliche Masse einer Aminosäure 111,1254D. Ausgehend 

davon lässt sich für eine gegebene Molekülmasse die Anzahl der Aminosäuren und damit die 

Anzahl jedes oben erwähnten Atoms berechnen. Für große Moleküle (ab 6000D) stimmt die 

geschätzte Summenformel sehr gut mit der tatsächlichen überein. Denn bei einem Molekül 

mit z.B. 1000 C-Atomen spielen 50 C-Atome mehr oder weniger für die resultierende Isotopenverteilung 

kaum eine Rolle. Da hier Glykoproteine ab 10kD betrachtet werden, ist die 

Nährung folglich unproblematisch, d.h. die geschätzte Isotopenverteilung ist zur tatsächlichen 

sehr ähnlich. 

In Abb. 3.4.2 ist die Isotopenverteilung von vier Spezies dargestellt. 

51

3.5. Simulation der Peakverbreiterung 

Die Isotopenverteilung allein reicht nicht aus, um einen Peak im gemessenen Spektrum zu simulieren. 

Es fehlt noch eine wichtige Komponente, nämlich die durch das ESI-MS-Gerät verursachte 

auflösungsabhängige Verbreiterung der Peaks [Chapman92]. 

Um die Verbreiterung zu simulieren, wird auf jede Masse, welche man aus der Isotopenverteilung 

erhält, eine Gauß-Kurve GAUSS(x;a,b,c) gelegt, wobei a die Amplitude ist, b der Mittelpunkt 

und c der Streuungsparameter. 

52 

Abb. 3.4.2: Spektrum eines Antikörpers, aufgenommen 

bei einer Auflösung von R=5000. Es ist 

die Isotopenverteilung von vier im Spektrum vorkommenden 

schweren Ketten dargestellt. Man 

sieht, dass die Isotopenverteilung sehr gut mit 

dem gemessenen Signal übereinstimmt. Die Verbreiterung 

am Sockel der Signalpeaks ist durch 

Addukte verursacht, welche hier nicht dargestellt 

sind. 

Abb. 3.5.1: Theoretische Peakform bei 

verschiedenen ESI-MS-Auflösungen für 

ein einfach geladenes Molekül. 

2 

⎛ 

⎞ 

⎜ 

1 ⎛ x − b ⎞ 

GAUSS ( x; 

a, 

b, 

c) 

= a exp − ⎟ 

⎜ 

⎜ ⎟ 

(3.5.1) 

⎟ 

⎝ 

2 ⎝ c ⎠ ⎠ 

Die Faltung aller Gauß-Kurven ergibt dann die beobachtete Peakform. Die Position jeder 

Gauß-Verteilung ist durch den m/z-Wert der zugehörigen Isotopenmasse festgelegt. Ebenso 

verhält es sich mit der Amplitude, welche durch die Häufigkeit der korrespondierenden Isotopenkombination 

determiniert wird. Als einziger Parameter muss noch die Breite der Gauß- 

Kurve bestimmt werden. Dazu verwendet man die Rayleigh’sche Definition von Auflösung.

Der Zusammenhang zwischen Auflösung R, Halbwertsbreite FWHM und m/z-Wert eines monoisotopischen 

Peaks ist folgender: 

m / z 

R = 

FWHM 

m / z 

⇒ FWHM = 

R 

(3.5.2) 

Um die Halbwertsbreite der Gauß-Funktion zu bestimmen, müssen diejenigen x Punkte bestimmt 

werden, bei denen die Gauß-Funktion die halbe Höhe annimmt. Anschließend wird die 

Differenz der Punkte gebildet und man erhält die Halbwertsbreite. 

2 

⎛ 1 x0 

b ⎞ 1 

a exp⎜ ⎛ − ⎞ 

− ⎜ ⎟ ⎟ = f ( xmax 

) 

(3.5.3) 

⎜ 2 c ⎟ 

⎝ ⎝ ⎠ ⎠ 

2 

Die maximale Höhe f(xmax)=a erhält man, wenn man für xmax, den Mittelpunkt b einsetzt: 

2 

⎛ x b ⎞ 

a ⎜ 

1 ⎛ 0 − ⎞ 

⎟ ⎟ 

1 

exp − ⎜ = 

⎜ c ⎟ 

⎝ 

2 ⎝ ⎠ ⎠ 

2 

2 

⎛ x b ⎞ 

a ⎜ 

1 ⎛ 0 − ⎞ 

⎟ ⎟ 

1 

exp − ⎜ = 

⎜ c ⎟ 

⎝ 

2 ⎝ ⎠ ⎠ 

2 

1 ⎛ x0 

− b ⎞ 

− ⎜ ⎟ 

2 ⎝ c ⎠ 

x 

= ± c 

2ln( 

2) 

⎛ 1 ⎞ 

= ln⎜ 

⎟ 

⎝ 2 ⎠ 

2 

− ( x0 

− b) 

= −ln( 

2) 

2 

2c 

( x 

2 

− b) 

2 

= 2c 

ln( 2) 

0 

1/ 

2 

2 

+ b 

f ( b) 

a 

(3.5.4) 

Den Zusammenhang zwischen Halbwertsbreite FWHM und Streuungsparameter c erhält man, 

indem die Differenz der beiden Punkte gebildet wird: 

FWHM = x − x = 2 2ln( 

2) 

c = 2. 

354820044c 

FWHM 

⇒ c = 

2. 

354820044 

2 

1 

(3.5.5) 

Nun hat man alle Parameter beisammen, um für jeden Peak die Verbreiterung zu berechnen. 

Die Faltung muss für jeden Peak (Ladungszustand einer Masse) neu berechnet werden, weil 

53

die Peakbreite nicht konstant ist. Sie ist nichtlinear vom Ladungszustand abhängig (vgl. Abb. 

3.5.2). 

3.6. Curve-Fitting 

Die Peaks einer Serie sind oft durch andere Peaks überlagert. Das macht eine Identifizierung 

der tatsächlichen Signalhöhe problematisch. Man kann sich aber die Tatsache zu Nutze machen, 

dass die Hüllkurve jeder Serie einer stochastischen Verteilung folgt. Sofern man die 

Verteilung kennen würde, wäre es ein Leichtes, die Intensitäten an den überlappenden Peaks 

zu berechnen. 

Wie in Kap. 2.3. bereits erläutert, liegen die Analyten in mehreren Konformationen vor, wobei 

jede einer eigenen Ladungsverteilung Bi(z) folgt. Die Summe aller Basisfunktionen ergibt die 

im Spektrum beobachtete Hüllkurve I(z): [Dobo01] 

54 

n 

∑ 

i= 

1 

I ( z) 

= B ( ) 

(3.6.1) 

i z 

Abb. 3.5.2: Zusammenhang zwischen Peakbreite eines 

monoisotopischen Peaks und Ladungszustand. Als Masse 

wurde 50kD gewählt und als Geräteauflösung wurde 

5000 gesetzt. Mit steigender Ladung (z) nimmt die Peakbreite 

(FWHM) ab. 

Die durchschnittliche Ladung jeder Basisfunktion (die Position des Maximums von Bi(z)) ist 

für die Konformation bzw. Oberflächenzugänglichkeit des Analyten charakteristisch. Die 

Breite (Standardabweichung von Bi(z)) entspricht der Heterogenität der Konformation. 

Schwach strukturierte (große Oberfläche) Proteine erzeugen höhere Ladungszustände als stark 

strukturierte (kleine Oberfläche). Der Grund dafür ist, dass bei schwach strukturierten Proteinen 

die Oberfläche größer ist und somit für die Anlagerung größerer Ladungsmengen zugänglicher 

ist. Bei stark strukturierten Proteinen ist die Oberfläche geringer und dadurch können 

während der Ionisierung nicht so viele Ladungsträger aufgenommen werden, da die elektrosta-

tische Abstoßung zu groß ist. Die genauen Mechanismen, welche dahinter stecken, sind aber 

noch nicht bekannt. [Šamalikova03] 

Um die Anzahl relevanter Basisfunktionen (Faltungszustände des Analyten) zu bestimmen, 

müsste man mehrere Experimente bei unterschiedlichen Pufferbedingungen durchführen [Dobo03]. 

Man könnte z.B. Aufnahmen bei verschiedenen pH-Werten tätigen und beobachten, 

wie sich die Hüllkurve abhängig vom pH-Wert ändert. Eine Automatisierung dieses Schrittes 

ist möglich. So können bei einer Singulärwert-Dekomposition (SVD) der Messreihen, die Anzahl 

relevanter Singulärwerte bestimmt werden, welche der Anzahl Basisfunktion entsprechen 

[Dobo01]. Dieser Ansatz kann hier nicht angewendet werden, weil nicht davon ausgegangen 

werden kann, dass für jede Analyse ein Dutzend Aufnahmen gemacht werden. Vielmehr wird 

dem Anwender die Freiheit gelassen, durch sein fachliches Wissen selbst zu bestimmen, wie 

viele relevante Faltungszustände vorhanden sind. Als Faustregel kann man jedoch sagen, dass 

eher weniger als mehr Basisfunktionen benutzt werden sollen. Ursache hierfür ist, dass mit 

steigender Zahl an Basisfunktionen das Modell natürlich immer besser erklärt werden kann. 

Teilweise kann es sogar passieren, dass es keine eindeutige Lösung für die Faltung gibt. Somit 

ist die physikalische Aussagekraft dann doch eher zu bezweifeln. Bei Verwendung weniger 

Basisfunktionen sinkt zwar die Qualität des Fittings, die Aussagekraft jedoch ist wesentlich 

stärker, da es jetzt viel besser die wahre Natur der Hüllkurve widerspiegelt. 

Speziell bei Antikörpern kann man zu der Zahl relevanter Funktionen folgende Annahme machen: 

Die leichte Kette besitzt zwei homologe Einheiten VL und CL. Die schwere Kette besitzt 

vier homologe Einheiten VH, CH1, CH2 und CH3, wobei die C-Domänen viel ähnlicher untereinander 

sind als zur V-Domäne. Jede dieser Einheit verfügt über eine interne Disulfidbindung 

(vgl. Abb. 2.2.2). Um die Ionsierungsfähigkeit zu verbessern, werden den Proben Detergenzien 

zugeführt. Dies hat zur Folge, dass es zu zufälligen Trennungen der Disulfidbindungen 

kommt, d.h. es bilden sich verschiedene Faltungszustände. Die leichte Kette z.B. kann eine, 

zwei oder gar keine offene Disulfidbindung(en) haben. Es gibt also drei echte Zustände. Für 

ein Fitting der Hüllkurve reichen zwei Basisfunktionen völlig aus, weil die Variante mit zwei 

offenen Bindungen selten ist und damit nicht ins Gewicht fällt. Bei der schweren Kette sind 

mehr Konformationen möglich, wobei auch hier die meisten davon nicht ins Gewicht fallen, 

weil sie ähnlich verteilen. Drei Basisfunktionen sind somit völlig ausreichend. Diese Annahme 

beruht auf Erfahrungswerten. Für einen Beweis dieses Sachverhalts müssten weitere Analysen 

durchgeführt werden. 

Das Fitting kann nur so gut sein wie das Modell, welches hierzu benutzt wird. Deswegen ist 

es von entscheidender Bedeutung, ein Modell zu wählen, welches die wahre Natur des Phänomens 

möglichst gut beschreibt. Für die hier untersuchten Glykoproteine wird eine Gauß- 

Verteilung als Basisfunktion angenommen. Diese hat sich in der Praxis als tauglich erwiesen, 

weil sie den physikalischen Verteilungsprozess sehr gut widerspiegelt. 

55

Um die Parameter der Basisfunktionen zu finden, welche der Hüllkurve zugrunde liegen, wird 

folgendermaßen vorgegangen: Als erstes wird eine Datenliste erstellt, welche alle freien Peaks 

der untersuchten Spezies enthält. Freie Peaks sind all diejenigen, welche nicht durch Peaks 

anderer Massen überlagert werden. Um auch extreme Fälle noch gut behandeln zu können, 

werden auch Peaks herangezogen, welche überlappen, wobei die Überlappung nicht mehr als 

5% der Peakintensität einnehmen darf. Beim Fitting sind nichtlineare Transformationen der 

Daten nicht zulässig, da sie das Ergebnis verfälschen. Folglich kann beim Fitten nicht mit der 

m/z-Skala gearbeitet werden, weil die Transformation von I(z) nach I(m/z) nicht linear ist, d.h. 

die m/z-Werte der Datenpunkte müssen auf z-Werte umgerechnet werden. Mit diesen Datenpunkten 

wird anschließend ein Fitting der Basisfunktionen durchgeführt. Um genauer zu sein: 

es werden die Parameter gefittet. Im Falle der Gauß-Funktion sind diese Mittelpunkt, Amplitude 

und FWHM. 

3.6.1. Levenberg-Marquardt-Algorithmus 

Für das Fitting der Basisfunktionen auf die Datenpunkte gibt es eine große Zahl an Algorithmen. 

Jedoch kommen nicht alle davon in Frage. Es gibt zwei Klassen an Fitting-Algorithmen: 

lineare und nichtlineare. Die erste Klasse scheidet für das hiesige Problem aus, weil es nicht 

linear ist. Folglich muss ein Algorithmus der nichtlinearen Fitting Klasse verwendet werden. 

Zunächst wurde die „Downhill Simplex“-Methode für Multidimensionen, entwickelt von 

Nelder und Mead, betrachtet. Diese wurde auch von [Dobo01] verwendet, welche mittels Entfaltung 

der Hüllkurve Konformationsanalysen von Proteinen durchgeführt haben. In einigen 

Tests mit einfachen Daten erwies sich dieser Algorithmus jedoch als ungeeignet, weil bei fast 

allen Läufen der Algorithmus gar nicht konvergiert hat. 

Als Alternative kam der Levenberg-Marquardt-Algorithmus in Frage, welcher als einer der 

Standard-Algorithmen im Fitting-Bereich gilt. Dieser hat sich bei den ersten Versuchen mit 

Testdaten als robuster entpuppt. Eine später vorgenommene Untersuchung mit synthetischen 

Daten zeigt ebenfalls, dass man mit dem LM-Algorithmus gute Ergebnisse erzielt (vgl. Kap. 

4). Deshalb fällt die Wahl für eine Fitting-Methode auf den LM-Algorithmus. Im Folgenden 

wird die prinzipielle Idee des LM-Algorithmus erläutert. Wegen der Komplexität des Verfahrens 

kann nicht auf alle Details eingegangen werden. Den interessierten Leser verweise ich auf 

[Madsen04], welcher eine überaus detaillierte Beschreibung des LM-Algorithmus gibt. 

Beim nichtlinearen Fitting und somit auch beim LM-Algorithmus wird eine Kostenfunktion 

minimiert, welche folgende Form hat: 

56

F 

1 

2 

m 

∑ 

i= 

1 

( x) 

= ( f ( ) ) 

i x 

2 

Die zu optimierenden Parameter sind im Vektor x ( x x ,..., x ) 

1, 

2 

n 

(3.6.1.1) 

= abgelegt. Bei 

n 

f : ℜ a ℜ, 

i = 1,..., 

m ∧ m ≥ n handelt es sich um die Residuenfunktion. Sei das Fitting- 

i 

Modell M(x,t), dann ist fi(x)=yi-M(x,ti). Um die Darstellung zu vereinfachen, wird der Vektor 

f(x)=(f1(x),f2(x),…,fm(x)) definiert und man erhält: 

F 

m 1 1 1 T 

= ∑ i 

2 i= 

1 2 2 

2 

2 

( x) 

( f ( x) 

) = f ( x) 

= f ( x) 

f ( x) 

(3.6.1.2) 

Es wird angenommen, dass die Kostenfunktion 2fach differenzierbar und glatt ist, so dass die 

folgende Taylor-Approximation anwendbar ist: 

F 

T ' 1 T '' 

3 

( x h) 

= F( 

x) 

+ h F ( x) 

+ h F ( x) 

h + O( 

h ) 

+ (3.6.1.3) 

2 

Damit berechnet man die Kosten, wenn vom aktuellen Parametervektor x um h:=t-x „Schritte“ 

nach x+h gegangen wird. Die O-Notation am Ende der Gleichung, zeigt wo die Taylor- 

Reihe abgeschnitten wurde. Hier betrifft dies alle Terme dritter Ordnung oder höher – diese 

werden ignoriert, da sie nicht signifikant sind. Die erste Ableitung F ’ (x) entspricht dem Gradienten 

g(x) und die zweite Ableitung F ’’ (x) der Hesse-Matrix H(x). Sei x * ein lokales Minimum, 

dann gilt: g(x)=F ’ (x * )=0. Dies ist eine notwendige, aber nicht ausreichende Bedingung: 

Die erste Ableitung ergibt auch für Sattelpunkte Null. Um eine ausreichende Bedingung zu 

erhalten, muss zusätzlich gelten, dass die zweite Ableitung ungleich Null ist, d.h. H(x)=F ’’ (x * ) 

ist positiv definit. Falls H(x) negativ definit wäre, hätte man ein lokales Maximum gefunden. 

Bei der nichtlinearen Optimierung wird iterativ vorgegangen. Mit jedem Schritt von xk nach 

xk+1 wird F(xk) minimiert, d.h. F(xk)>F(xk+1). Optimalerweise hat man eine Methode, welche 

abhängig vom aktuellen Gradienten kleine bzw. große Schritte h durchführt. Ist der Gradient 

klein, sollten große Schritte gemacht werden, ist der Gradient hingegen groß, sind kleine 

Schritte wünschenswert. Dies soll bewirken, dass man in einem kleinen Tal (schlechtes lokales 

Minimum) nicht hängen bleibt und zum anderen, dass man ein gutes lokales Minimum 

nicht übersieht. Wenn h klein ist, kann man f durch eine Taylor-Reihe approximieren: 

2 

f ( x + h) 

= f ( x) 

+ J ( x) 

h + O( 

h ) ≅ l( 

h) 

≡ f ( x) 

+ J ( x) 

h 

(3.6.1.4) 

J steht für die Jakobi-Matrix: 

57

58 

⎛ df1 

⎜ 

⎜ dx1 

J ( x) 

= ⎜ ... 

⎜ df m 

⎜ 

dx 

⎝ 1 

... 

... 

... 

df1 

⎞ 

⎟ 

dxn 

⎟ 

... ⎟ 

dfm 

⎟ 

dx 

⎟ 

n ⎠ 

Setzt man Gl. (3.6.1.4) in die Definition von (3.6.1.2) ein, so erhält man: 

1 T 

F( 

x + h) 

≅ L( 

h) 

≡ l( 

h) 

l( 

h) 

2 

1 T 

T T 1 T T 

= f(x) f(x) + h J ( x) 

f(x) + h J ( x) 

J ( x) 

h 

2 

2 

T T 1 T T 

= F( 

x) 

+ h J ( x) 

f(x) + h J ( x) 

J ( x) 

h 

2 

(3.6.1.5) 

(3.6.1.6) 

Es ist derjenige Parameterschritt h gesucht, welcher L(h) minimiert: = argmin { L( 

h)} 

. Um 

h zu finden, werden zunächst der Gradient und die Hesse-Matrix bestimmt: 

' 

g( 

x) 

= L ( h) 

= J ( x) 

'' 

H ( x) 

= L ( h) 

= J ( x) 

T 

f ( x) 

+ J ( x) 

T 

J ( x) 

T 

J ( x) 

h 

h h 

(3.6.1.7) 

Man sieht, dass L ’’ (h) unabhängig von h ist. L ’’ (h) ist symmetrisch und wenn die Jacobi- 

Matrix J vollen Rang hat, d.h. die Spalten von J sind linear unabhängig, dann ist F ’’ (h) positiv 

definit. Der Schritt h, welcher die Kostenfunktion minimiert, kann gefunden werden, indem 

T 

T 

L ' ( h) 

= 0 ⇒ J ( x) 

J ( x) 

h = −J 

( x) 

f gelöst wird. Der LM-Algorithmus löst eine leichte 

opt 

T 

T 

Variation davon, nämlich: ( J ( x) 

J ( x) 

+ µ I ) h = −J 

( x) 

f . Der zusätzliche Parameter µ wird 

opt 

als „Dämpfungsfaktor“ verwendet. Ist µ>0, so ist die Koeffizienten-Matrix positiv definit und 

somit zeigt hopt in eine absteigende Richtung. Für große Werte von µ wird ein kleiner Schritt 

durchgeführt. Kleine µ Werte hingegen kommen am Ende der Optimierung zum Tragen, wenn 

der gesuchte Parametervektor nahe am Optimum ist. Der Dämpfungsparameter wird bei jedem 

Iterationsschritt angepasst, damit sichergestellt ist, dass die Kostenfunktion minimiert 

wird. Ein weiterer Vorteil der Einführung dieses Parameters ist, dass Situationen in denen 

J(x) T J(x) singulär wird, abgefangen werden. Sobald hopt bestimmt ist, wird der neue Parame- 

tervektor x gesetzt: x : = x + αhopt 

. Der Algorithmus ist in Abb. 3.6.1.1 zusammengefasst.

Beim Least-Squares-Fitting wird die Summe der Quadrate der Residuen minimiert. Dieser 

Mechanismus funktioniert nicht bzw. nur unzureichend, wenn starke Ausreißer vorhanden 

sind. Das Quadrat der Residuen führt in dem Bereich des Ausreißers dazu, dass die gefittete 

Kurve sich weit vom Optimum entfernt. Ein anderer Problemfall ist gegeben, wenn die y- 

Daten sich über mehrere Größenordnungen erstrecken. Hier kann das Quadrat der Residuen 

der größten y-Daten die Residuen der kleineren y-Daten überragen mit dem Ergebnis, dass die 

kleinen Werte nur schlecht oder gar nicht gefittet werden. Diese Punkte werden in den Kapiteln 

3.6.3. und 3.6.4. behandelt. 

Zunächst wird die Implementierung aus [NR] für den unbeschränkten LM-Algorithmus benutzt. 

Dieser erweist sich jedoch als nicht robust genug. Beim Testen mit synthetischen Daten 

kam es fast immer zur Bildung einer Singulärmatrix (bei der Gauss-Jordan-Elimination), 

wenn die Startparameter ungünstig gewählt sind, d.h. die Fitting-Methode brach ab. Ein weiteres 

Problem ist, dass die Implementierung nur sehr spartanisch ist, d.h. viele Entwicklungen, 

welche seit der Veröffentlichung des urspr. Algorithmus 1963 bekannt sind, sind nicht in den 

Code eingegangen. Somit eignet sich diese Variante nicht, um das hiesige Problem zu lösen. 

Stattdessen wird auf den von Manolis Lourakis implementierten LM-Algorithmus gesetzt. 

Dieser bietet neben der Beseitigung vorhin genannter Mängel auch die wichtige Option an, 

Randbedingungen für die Parameter bzw. die Gleichungen zu setzen. Eine sehr wichtige Eigenschaft 

im Hinblick auf die Optimierung des Fittings. 

3.6.2. Güteparameter 

Abb. 3.6.1.1: Skizze des LM-Algorithmus. Er 

stoppt, wenn eine der folgenden Bedingungen 

erfüllt ist: 

• die maximale Zahl kmax an Iterationen 

ist erreicht, 

• die Ordnung von g ist kleiner ε1, 

• die Änderung von hlm ist kleiner ε2. 

Als Werte werden für ε 10 -15 gesetzt und für 

kmax 3000. 

Um die Güte eines Fittings zu bestimmen und somit verschiedene Fittings miteinander zu 

vergleichen, bedarf es eines Maßes. Ein gebräuchliches Maß ist das Bestimmtheitsmaß: 

59

60 

2 

R =1 − 

SSE 

SSM 

(3.6.2.1) 

SSE ist die Summe der quadratischen Fehler, d.h. die Summe der Residuen zum Quadrat. 

SSM ist die Summe der Quadrate über das arithmetische Mittel (vgl. Abb. 3.6.2.1). Wenn R² 

den Wert 1 einnimmt, dann ist der Fit perfekt. Je näher an Null der Wert kommt, desto 

schlechter ist der Fit. In extremen Fällen kann der Wert sogar negativ werden, d.h. das Modell 

beschreibt die Daten schlechter, als eine Linie durch das arithmetische Mittel. Seien beispielsweise 

folgende Daten gegeben: 

X Beobachtet Erwartet Residuen² 

(Residuen über arithmethisches 

Mittel)² 

1 1,09 1,00 0,008 0,795 

2 1,34 1,41 0,005 0,410 

4 1,70 2,00 0,089 0,079 

6 2,54 2,45 0,008 0,311 

10 3,24 3,16 0,005 1,576 

Summiert man die quadratischen Fehler, erhält man SSE=0,12. Das arithmetische Mittel beträgt 

1,98. Damit erhält man SSM=3,17. Mit obiger Formel erhält man schließlich für das Bestimmtheitsmaß 

R² einen Wert von 0,96. Dies ist ein sehr guter Wert. 

Abb. 3.6.2.1: Links sind die Residuen für das gefittete Modell (rote Kurve) zu sehen (SSE). Rechts sind die Residuen 

über das arithmetische Mittel der Punkte dargestellt (SSM). 

Als weiteres Kriterium, um über die Güte eines Fits zu entscheiden, können die Vertrauens- 

Intervalle der Parameter betrachtet werden. Je nach Anwendung kommen 90%-, 95%- oder 

99%-Vertrauensintervalle in Frage. Das Intervall sagt aus, dass der gesuchte wahre Parameter 

zu 90%, 95% bzw. 99% in dem angegebenen Intervall liegt. Am gebräuchlichsten ist das 

95%-Vertrauensintervall, welches auch im Rahmen dieser Arbeit verwendet wird. 

Die Vertrauensintervalle lassen sich direkt aus der Kovarianz-Korrelations-Matrix Cov der 

Parameter berechnen, welche von den meisten Fitting-Algorithmen mit als Ergebnis zurück-

geliefert werden: Auf der Diagonale der Matrix befinden sich die Eigenkorrelationen jedes Parameters. 

Zieht man von diesen Werten die Wurzel, so erhält man den Standardfehler SEi je- 

des Parameters Parami, d.h. SE i = Covii 

. Damit kann nun das Intervall berechnet werden: 

[Motulsky] 

CI = Param ± TI�V ( 0. 

05, 

DOF) 

* SE 

(3.6.2.2) 

i 

i 

i 

DOF steht für die Anzahl der Freiheitsgrade und berechnet sich aus der Differenz der Anzahl 

Datenpunkte minus der Anzahl zu bestimmender Parameter. Die Funktion TINV berechnet 

den T-Wert der Student-Verteilung als eine Funktion der Wahrscheinlichkeit und des Freiheitsgrads. 

Betrachtet man den R² Wert zusammen mit den Vertrauensintervallen der Parameter, kann 

nun eine sehr gute Aussage über die Qualität des Ergebnisses gemacht werden. Der R² Wert 

allein sagt zwar aus, wie gut die gefittete Kurve sich den Punkten nähert, jedoch kann man allein 

daraus nicht herauslesen, ob die gefundenen Parameter die einzige richtige Lösung darstellen 

oder nicht. Anhand der Vertrauensintervalle lässt sich jedoch diese Frage beantworten. 

Sind nämlich die Intervalle CIi eng, so spiegelt dies einen sehr guten Fit wieder, sind sie breit, 

so kann man davon ausgehen, dass man eine von vielen möglichen Lösungen gefunden hat, 

d.h. je kleiner die Intervalle, desto besser sind die Parameter durch die Datenpunkte definiert. 

3.6.3. Optimierung des Fittings 

Bei den im Rahmen dieser Arbeit untersuchten Spektren ist häufig der Fall, dass die y-Werte – 

die Intensitäten – sich über mehrere Größenordnungen erstrecken. Zum Beispiel kommt es oft 

vor, dass eine Masse sich über einen Bereich von etwa 500 „Counts“ erstreckt, eine andere 

über etwa 2000 „Counts“ und wieder eine andere kann sich über bis zu 20.000 „Counts“ erstrecken. 

Solche Fälle entstehen beispielsweise bei der Messung reduzierter Antikörper. 

Die Variation bei den Antikörpern ist i.d.R. nur auf der schweren Kette vorhanden. Die leichte 

Kette hingegen ist bei allen Spezies identisch. Folglich kommt es bei den Peaks der leichten 

Ketten zu sehr hohen „Counts“, da die leichten Ketten aller in der Probe befindlichen Antikörper 

zusammen zur Signalstärke beitragen. Dies hat zwei negative Folgen: Die erste ist, 

dass ein Fitting über einen so großen Raum mit mehr Rechenzeit verbunden ist. Folglich ist 

eine befriedigende Konvergenz oft noch nicht abgeschlossen, wenn die maximale Anzahl an 

Iterationen erreicht ist. Die zweite betrifft die Vergleichbarkeit verschiedener Hüllkurven. 

Dies ist relevant, sofern Ergebnisse verschiedener Experimente verglichen werden sollen. 

61

Um diese Probleme zu umgehen, werden die Daten auf der y-Skala linear transformiert: Sie 

werden auf einen Bereich von 0% bis 100% normalisiert. Diese Art der Normalisierung beeinflusst 

nicht das Fitting-Ergebnis. Eine nichtlineare Transformation hingegen verändert die 

relativen Positionen der Datenpunkte. Beim Fitten äußert sich das dadurch, dass eine andere 

Funktion gefunden wird, welche χ² minimiert (vgl. Abb. 3.6.3.1). Es werden also andere Parameter 

gefunden. [Motulsky] 

Als weitere Verbesserungsmaßnahme, werden für jeden Parameter Schranken gesetzt, d.h. es 

werden nur sinnvolle Parameterbereiche zugelassen. Dies hat zur Folge, dass der Suchraum 

und somit die notwendige Rechenzeit weiter verkleinert wird. Für die Glykoproteine haben 

sich folgende Schranken als sinnvoll erwiesen: 

62 

Abb. 3.6.3.1: Effekt einer nicht-linearen Transformation. In beiden Bildern ist die Hüllkurve eines Antikörpers mit einer 

Masse von ca. 50kD dargestellt (schwarze Linie). Links auf der z-Skala und rechts auf der m/z-Skala 

(m/z=(m+1.008z)/z). Rechts ist die Variante, wie man sie im Spektrum sehen würde. In beiden Fällen wurde ein LM- 

Fitting (rote Kurve) mit zwei Gauß-Funktionen (grau gestrichelte Kurven) durchgeführt. Auf der z-Skala hat der Fit 

perfekt geklappt und man erhält für die Hüllkurve I(z)=GAUSS(z,696,39,12.5)+GAUSS(z,1840,55,16.5). Auf der m/z- 

Skala hingegen gelingt das Fitting überhaupt nicht. 

• die Amplitude muss in einem Bereich zwischen 1 und 130 liegen, 

• der Mittelpunkt muss zwischen 5 und 95 liegen, 

• und die Halbwertsbreite muss in dem Bereich zwischen 2 und 17 liegen. 

Ein weiterer Faktor, der optimiert werden kann, betrifft die Initialisierung der Startparameter. 

Es ist empfehlenswert, diese nicht einfach auf den Wert 1 zu setzen. Ebenso sollten sie nicht 

auf einen anderen konstanten Wert gesetzt werden. Vielmehr sollte der Wert abhängig vom 

aktuellen Umfeld, dynamisch gewählt werden. Speziell für Glykoproteine werden die Startparameter 

wie folgt festgelegt: Die Amplitude wird auf einen 15% der maximalen Intensität gesetzt. 

Die Zentren der Basisfunktionen werden in gleichmäßigen Abständen auf der z-Skala 

verteilt. Für die Halbwertsbreite wird ein Wert von 4 vergeben. 

Wenn die zu fittende Funktion mehrere Minima hat, kann man nicht mit Sicherheit sagen, 

dass man das globale Minimum findet. Das gefundene Minimum hängt von den gewählten 

Startparametern ab. Als Lösung für dieses Problem werden fünf verschiedene Fittings mit jeweils 

maximal 5000 Iterationen durchgeführt. Nach jedem Fit-Lauf werden die Startparameter 

zufällig verändert. Am Ende werden diejenigen Parameter gewählt, welche den besten R²

Wert ergeben haben. Die Ausführung mehrerer Fit-Läufe mit unterschiedlichen Startparametern 

soll gewährleisten, dass man nicht fälschlicherweise in einem lokalen Minimum hängen 

bleibt. 

Beim Betrachten komplexer Spektren kann häufig das Problem auftreten, dass weniger Datenpunkte 

als Parameter vorhanden sind. In diesem Fall ist ein Fitting nicht durchführbar. Mit 

komplexen Spektren, sind solche Spektren gemeint, in denen viele Varianten einer Masse 

vorkommen, welche sich nur durch geringe Massendifferenzen unterscheiden. Ebenso sind 

Kombinationen, bei denen Massen von ungefähr halber Größe vorkommen, ungünstig, wie es 

z.B. bei reduzierten Antikörpern der Fall sein kann (leichte Kette ca. 25kD und schwere Kette 

ca. 50kD). Die Peaks dieser beschriebenen Fälle liegen im Spektrum entsprechend dicht beieinander 

und überlagern häufig gegenseitig. Dies führt dazu, dass wenige freie Peaks und somit 

wenige Punkte für das Fitting zu Verfügung stehen. 

Um diesem Problem gerecht zu werden, kann man folgende Annahme machen: Die Varianten 

einer Masse bzw. eines Glykoproteins haben eine sehr ähnliche Hüllkurve. Folglich kann man 

einen einmal bestimmten Satz an Parametern der Modellfunktion für die anderen Molekülvarianten 

wieder verwenden. Hierzu definiert man sich eine Masse als Hauptkomponente, welche 

für die anderen Varianten als Grundlage dienen soll. Das stellt kein Problem dar, da häufig 

eine Masse im Spektrum derart gut repräsentiert ist, dass deren Hüllkurve ohne weiteres 

gefittet werden kann. 

Eine alternative Lösung dazu ist es, zuerst die Hüllkurven derjenigen Massen zu bestimmen, 

welche über ausreichend freie Punkte verfügen. Anschließend kann die so gewonnen Informationen 

dazu genutzt werden, um sukzessive die Intensität überlappender Peaks zu bestimmen. 

Der Nachteil bei letzterem Verfahren ist, dass mit jedem Schritt ein gewisser Prozentsatz an 

Fehlern mit einfließt. Am Ende kann es dann passieren, dass die Peaks der letzten Massen nur 

sehr ungenau sind, so dass ein Fitting nicht das wahre Ergebnis liefert. 

3.6.4. Ausreißer 

Nach Optimierung des Fitting-Verfahrens sind beim Betrachten biologischer Daten Unregelmäßigkeiten 

in der Hüllkurve mancher Antikörpervarianten bzw. Massen aufgefallen. In Abb. 

3.6.4.1 sind die nicht überlappenden Peaks der Masse M1=48454,71D eines Antikörpers abgebildet. 

Ein Fitting der Hüllkurve ist hier nicht möglich, weil die Intensität in jedem zweiten 

Ladungszustand einen Ausschlag nach oben macht. Zunächst war nicht klar, woher dieses 

Verhalten herrührt. Folgende zwei Vermutungen lagen nahe: a) Es besteht ein Fehler im Programmcode 

b) eine nicht qualitativ erfasste Masse befindet sich im Spektrum. 

63

Möglichkeit a) konnte nach einem Blick auf das Spektrum ausgeschlossen werden, da hier 

deutlich zu sehen ist, dass die Intensität tatsächlich von einem Ladungszustand zum nächsten 

stark variiert. Außerdem sind bei allen m/z-Werten keine Überlagerungen mit bekannten Massen 

vorhanden. Diese Fakten deuten darauf hin, dass eine qualitativ nicht erfasste Masse im 

Spektrum vorhanden ist, welche an jeder zweiten Stelle mit der hier untersuchten Spezies der 

Masse M1 überlagert. Um diese Theorie zu bestätigen, muss zunächst die Masse der unbekannten 

Spezies ermittelt werden. Hierzu werden zwei beliebige nacheinander folgende Peaks 

(m/z)1 und (m/z)2 an den überlappenden Stellen betrachtet: 

64 

⎛ m ⎞ 

⎜ ⎟ 

⎝ z ⎠ 

1 

⎛ m ⎞ 

⎜ ⎟ 

⎝ z ⎠ 

2 

m + nm 

= 

n 

m + ( n + 1) 

m 

= 

n + 1 

⎢ ⎛ m ⎞ 

⎢ ⎜ ⎟ − m + 

H 

⎢ ⎝ z ⎠2 

⇒ n = 

⎢⎛ 

m ⎞ ⎛ m ⎞ 

⎢⎜ 

⎟ − ⎜ ⎟ 

⎣⎝ 

z ⎠1 

⎝ z ⎠ 

⎛⎛ 

m ⎞ 

⇒ M = n ⎜ 

⎜⎜ 

⎟ − m 

⎝⎝ 

z ⎠1 

H 

+ 

H 

2 

H 

⎥ 

⎥ 

⎥ 

⎥ 

⎥ 

⎦ 

+ 

+ 

⎞ 

⎟ 

⎠ 

Abb. 3.6.4.1: Die nicht überlappenden Peaks der 

Serie sind durch Kreuze repräsentiert. Die durchgezogene 

Kurve ist das Ergebnis eines Fittings mit 

zwei Basisfunktionen auf den gegebenen Punkten. 

(3.6.4.1) 

Für die Berechnung der Masse werden die Peaks bei (m/z)1=1010,45 und (m/z)2=1054,43 

verwendet. Dies ergibt eine Masse von M2=24228,71D, was auf eine Variante der leichten 

Kette hindeutet. Die Serie von M2 fällt exakt mit jedem zweiten Peak der Serie von M1 zusammen. 

Nun muss die unbekannte Masse nicht zwangsweise exakt auf M2 fallen. Eine kleine 

Abweichung davon würde immer noch zu einer Überlappung der Peaks im Spektrum führen. 

Die berechnete Masse M2 ist vielmehr ein Hinweis auf den Massenbereich, welcher betrachtet 

werden muss, um die tatsächliche Variante / Masse zu entdecken. Die leichte Kette des hier 

betrachteten Antikörpers besitzt eine Masse von MLK=24200,21D. Betrachtet man die mögli-

chen Modifikationen, so sieht man, dass nur Addukt-Signale in Frage kommen. Wie sich herausstellt, 

ist die gesuchte Masse, welche mit M1 im Spektrum überlappt, M3=24222,21D, eine 

Na-Addukt Variante von MLK. Im Spektrum wurde sie wahrscheinlich übersehen, weil es 

für jeden z-Wert in die Peaks von M1 reinfällt. Nachdem diese Addukt-Variante erfasst und im 

Programm eingetragen wird, verschwindet jeder zweite Punkt und ein Fitting der Hüllkurve 

ist möglich (vgl. Abb. 3.6.4.2). 

Abb. 3.6.4.2: 

Links: Gefittete Hüllkurve der Masse 48454,71D nach 

Erkennung der Ausreißer. 

Unten: Ausschnitt aus dem Spektrum von CD22. Die 

grüne Peakserie entspricht einer Varianten der schweren 

Kette mit einer Masse von 48454,71D. Die blaue 

Peakserie entspricht dem Na-Addukt der leichten Kette 

und hat eine Masse von 24222,21D. Man sieht wie 

in jedem zweiten Signal die beiden Massen überlagern. 

Nicht immer sind die Fälle so extrem wie der hier vorgestellte. Es kann durchaus vorkommen, 

dass es nur ein oder zwei Ausreißer gibt. Ebenso kann es sein, dass die Intensitätsunterschiede 

nicht so stark sind wie die hier gezeigten. Dies ist z.B. der Fall, wenn Addukt-Varianten der 

schweren Kette verantwortlich sind. Diese haben ja eine geringere Intensität im Spektrum und 

fallen dementsprechend nicht so stark auf bei Überlappungen. 

Da solche Addukt-Signale immer wieder vorkommen und nicht immer annotiert werden, ist 

eine Methode wünschenswert, welche automatisch erkennt, ob es sich bei den Punkten um 

Ausreißer handelt oder nicht: 

Von allen Massen werden die Addukt-Varianten simuliert. Da es bis zu einer n-fachen Anlagerung 

von Na + oder K + Ionen an ein Molekül kommen kann, wird die Zahl auf maximal zwei 

65

Ionisierungen beschränkt. Dies kann ohne Bedenken gemacht werden, weil mit zunehmender 

Zahl an Addukten die Wahrscheinlichkeit sinkt, dass sich solche bilden. Dementsprechend gering 

fällt die Intensität im Spektrum aus, d.h. meistens werden deren Signale im Spektrum 

eher untergehen. Im nächsten Schritt wird überprüft, ob die simulierten Addukt-Varianten mit 

den Peaks der Masse, dessen Hüllkurve bestimmt wird, überlagern. Falls diese überlagern, 

werden sie als Ausreißer markiert. Diese Variante hat sich als zu sensitiv herausgestellt. So ist 

die Zahl falsch positiver unverhältnismäßig groß. 

Für den zweiten Versuch die Ausreißer zu erkennen, wurde ein komplett anderer Weg eingeschlagen. 

Hierbei wird die Steigung als Kriterium verwendet. Die Idee ist folgende: Zunächst 

wird die y-Streuung der Punkte ermittelt und gespeichert. Als nächstes wird jeder Punkt der 

Hüllkurve betrachtet. Falls die Kurve links vom aktuell betrachteten Punkt steigt und rechts 

vom Punkt sinkt, und die Steigung einen von der Streuung abhängigen Schwellenwert überschreitet, 

wird der Punkt als Ausreißer markiert. Diese Variante hat sich im Vergleich zu erstgenannten 

als robuster erwiesen. Die Sensitivität kann anhand des Schwellenwerts erhöht 

oder verringert werden. Ein Nachteil hierbei ist, dass kein universeller Schwellenwert gesetzt 

werden kann. Für manche Spektren ist ein geringer Wert besser als ein hoher und bei anderen 

ist dieser Sachverhalt gerade umgekehrt. 

Die dritte Möglichkeit, welche ausprobiert wurde beruht auf der Annahme, dass die niedrigeren 

Punkte keine Ausreißer sind und die höheren Punkte eher Ausreißer darstellen können. 

D.h. wenn eine Verfälschung auftritt, dann durch Überlappung mit anderen Massen, was eine 

Steigerung der Signalintensität an entsprechender Stelle bewirkt. Zur Ausreißer-Erkennung 

wird wie folgt vorgegangen: Es wird eine Savitzky-Golay-Glättung der Datenpunkte durchgeführt 

mit einem Polynom 2ten Grades und 5 Datenpunkten als Fenstergröße. Man erhält dadurch 

eine Kurve, welche die Tendenz der Punkte aufzeigt. Alle Punkte die oberhalb der geglätteten 

Kurve liegen werden als Ausreißer markiert. In der Praxis hat sich diese Methode als 

die beste erwiesen und wird deshalb als automatische Erkennungsmethode in MF II angeboten. 

Neben den automatischen Erkennungsmechanismen, wird auch die Möglichkeit geboten, manuell 

Ausreißer zu bestimmen. 

66

4. Technische Umsetzung 

In diesem Kapitel wird die Entwicklungsumgebung kurz vorgestellt, wobei teilweise auch auf 

Implementierungsdetails eingegangen wird. Eine Beschreibung der Programmoberfläche von 

Massfinder II lässt sich in Anhang C finden. 

Massfinder I, welches für die qualitative Analyse entwickelt wurde, ist komplett in der Skriptsprache 

Tcl/Tk geschrieben [ELehmann05]. Die Gründe hierfür lagen an den Möglichkeiten, 

schnell und einfach ein Programm zu entwickeln und zum anderen an der Tatsache, dass 

Tcl/Tk auf allen wichtigen Plattformen wie etwa Mac, Linux oder MS Windows eingesetzt 

werden kann. 

Eine der Hauptanforderungen war es, das existierende Programm durch Methoden für eine 

Quantifizierung zu erweitern. Eine komplette Neuentwicklung war also nicht erwünscht und 

somit stand die Vorgabe fest, Tcl/Tk als Programmiersprache zu verwenden. 

Abb. 4.1: Multi-Layer-Architektur von 

Massfinder II. 

Der Aufbau von Massfinder II entspricht einer Multi-Schicht-Architektur (vgl. Abb. 4.1). Das 

Programm gliedert sich in eine Präsentationsschicht, eine Logikschicht und eine Persistenzschicht. 

In der Präsentationsschicht sind die Dialogdarstellung sowie die Dialogsteuerung eingebaut. 

Als Programmiersprache wird hierfür eine objektorientierte Variante von Tcl/Tk verwendet, 

nämlich incr Tcl (http://incrtcl.sourceforge.net/itcl/). Die Logikschicht ist in ANSI-C 

geschrieben und implementiert die Geschäftsprozesse sowie damit verbundenen Funktionen. 

Schließlich gibt es noch die Persistenzschicht, welche die Datenhaltung regelt und ebenfalls in 

ANSI-C programmiert ist. Als Dateiformat für die Daten wird der XML (Extended Markup 

Language) Standard verwendet. 

Damit man von Tcl aus auf ANSI-C Prozeduren zugreifen kann, wird eine Tcl Erweiterungs- 

Bibliothek (DLL) erzeugt, welche die notwendigen Funktionen enthält. Zentraler Punkt in der 

67

DLL ist die Methode DLLEXPORT int Masslib_Init (Tcl_Interp *interp) {…}, weil 

hier alle für incr Tcl zur Verfügung stehenden Kommandos registriert werden. An dieser Stelle 

wird also das Interface für die Verbindung zwischen der Präsentationsschicht und der Logikschicht 

definiert. Angenommen, man will eine ANSI-C Methode namens int 

advps_isotopedistr(ClientData data, Tcl_Interp *interp, int objc, Tcl_Obj 

*CONST objv[]) {…} im Interface bekannt geben, so dass die Methode in incr Tcl unter dem 

Namen isotope_distribution(…) zur Verfügung steht. Die Registrierung dieses Kommandos 

würde wie folgt durchgeführt werden: 

68 

Itcl_RegisterObjC (interp, "isotope_distribution", 

advps_isotopedistr, (ClientData)NULL, 

(Tcl_CmdDeleteProc *)NULL); 

Die Gründe für die logische Trennung des Codes in mehrere Schichten sind vielfältig. Zum 

einen spielen Faktoren wie Wiederverwendbarkeit, Flexibilität sowie Wartbarkeit eine Rolle 

und zum anderen die Performanz des Programms. Die Performanz ist deshalb von Bedeutung, 

weil Tcl nicht für intensive Rechenoperationen, wie sie hier durchgeführt werden müssen, geeignet 

ist (vgl. Konzepte aus 3. Kapitel). Deshalb wird die GUI mit Tcl/Tk umgesetzt, während 

die Logik in ANSI-C abgehandelt wird. 

Der C-Code wird im Falle von MS Windows in eine DLL gekapselt, welche von Tcl/Tk aus 

angesprochen wird. Für eine evt. gewünschte Portierung auf andere Plattformen kann der 

ANSI-C- und Tcl/Tk-Code bis auf kleine Änderungen komplett wieder verwendet werden. 

Für die Darstellung der Spektren wird die freie Bibliothek PLplot 

(http://plplot.sourceforge.net/) verwendet. Diese bietet entsprechende Erweiterungen an, so 

dass sie von Tcl aus benutzt werden kann. 

Während der Entwicklung traten die meisten Fehler auf Ebene der Präsentationsschicht auf. 

Dies liegt an der Art der Skriptsprache Tcl, welche nicht typisiert ist. Syntaxfehler treten deswegen 

erst zur Laufzeit des Programms auf. Bei ANSI-C beschränkten sich die meisten Probleme 

auf Speicherzugriffsfehler, die jedoch selten waren und schnell behoben werden konnten. 

Als Entwicklungswerkzeuge für die Programmierung wurden die OpenSource-Produkte Dev- 

C++ (http://www.bloodshed.net/devcpp.html) sowie Ased (http://www.tcl-home.de/ased) für 

Tcl/Tk verwendet. 

Im Folgenden wird erläutert welche Programmteile selber entwickelt wurden, welche von 

Drittanbietern stammen und wo die entsprechenden Bausteine in der Architektur (vgl. Abb. 

4.1) eingebaut wurden.

Die Methoden für die Berechnung der Isotopenverteilung eines Moleküls wurden alle selber 

entwickelt. Der Code ist in der Logik-Schicht angesiedelt und somit in ANSI-C programmiert. 

Die für die Berechnung notwendigen Funktionen entsprechen zum Großteil den Methoden aus 

Abb. 3.4.1. Dazu gehören Methoden welche die Isotopenkombinationen berechnen, deren relative 

Häufigkeit bestimmen, die Einzelverteilungen zusammenfassen, den Massendefekt korrigieren 

und die Häufigkeiten skalieren. Zusätzlich wurden Methoden implementiert, welche 

die von der Geräteauflösung abhängige Peakverbreiterung berechnen. 

Ebenso in der Logikschicht eingebaut sind die Routinen des Savitzky-Golay-Filters, welche 

aus [NR] stammen. Einzig die Funktion für das Anwenden der Savitzky-Golay-Koeffizienten 

(vgl. Gl. (3.2.1)) musste selber programmiert werden. Um den Filter ohne Signalverfälschende 

Wirkung anwenden zu können, bedarf es wie bereits in Kap. 3.2. erwähnt äquidistanter Datenpunkte. 

ESI-MS-Spektren erfüllen diese Eigenschaft nicht und es muss folglich interpoliert 

werden. Der Code für die lineare Interpolation der Daten ist eine Eigenentwicklung. 

Bei den Routinen für die Elimination der Basislinie handelt es sich bis auf die kubische Spline 

Interpolation und den Savitzky-Golay-Filter für die 4. Ableitung welche beide aus [NR] 

stammen um Eigenentwicklungen. 

Die Bibliothek für den LM-Algorithmus, welche für das Fitting der Hüllkurven verwendet 

wird, stammt von [Lourakis05]. Diese ist im Gegensatz zur [NR] Implementierung wesentlich 

robuster. Die Methode welche den LM-Algorithmus aufruft und dabei versucht die Startparameter 

möglichst geschickt zu wählen wurde selber programmiert. Ebenso wurden die Methoden 

für die Erkennung der Ausreißer selber programmiert. 

Die Funktionen für die Peakauswahl, d.h. Erkennung überlappender Peaks sowie die Berechnung 

der Quantitäten sind ebenfalls selber geschrieben und zwar in ANSI-C. 

Neben den hier erwähnten Aspekten wurden eine Reihe weiterer Hilfsfunktionen implementiert, 

welche in der Logikschicht immer wieder zur Anwendung kommen. Beispielhaft seien 

zwei Methoden erwähnt: Die eine formatiert Tcl-Konforme Fehlermeldung und die andere 

dient zum Verfolgen von Nachrichten im Debug-Modus. 

Auf Ebene der Präsentationsschicht wurde die Seite „Envelope Modelling“ eigens für das Fitting 

der Hüllkurven entwickelt und zum vorhandenen Programm hinzugefügt (vgl. Anhang 

C). Daneben wurden noch diverse Anpassungen an verschiedenen Stellen im Code vorgenommen. 

So mussten entsprechende Menüpunkte gesetzt werden und kleinere Dialogboxen 

erstellt werden, um die oben beschriebenen Funktion aufrufen zu können. Außerdem mussten 

existierende iTcl Klassen um verschiedene Attribute erweitert werden damit die Datenhaltung 

gewährleistet ist. Die bestehenden Methoden für das Berechnen von Peakserien wurden aus 

dem Tcl Code ausgelagert und in ANSI-C geschrieben, da sie erstens dadurch schneller von 

69

statten gehen und zweitens nicht in der Präsentationsschicht gehören. Während dem kompletten 

Entwicklungszeitraum wurden darüber hinaus Fehler aus dem bestehenden Code beseitigt, 

sofern welche gefunden wurden. 

Neben den Entwicklungen, welche das Programm Massfinder II betreffen wurden zusätzlich 

einige Werkzeuge in ANSI-C geschrieben. Deren Aufgabe ist im Wesentlichen die Generierung 

synthetischer Daten. Diese wurden für die Validierung verwendet (vgl. folgendes Kapitel). 

70

5. Validierung 

An dieser Stelle wird eine Validierung der entwickelten Methoden anhand von Monte-Carlo- 

Simulationen durchgeführt. 

Die Güte der Algorithmen bzw. das gesamte Verfahren kann anhand empirischer Daten nur 

bedingt überprüft werden, da hier die wahren Quantitäten unbekannt sind. Ein Vergleich mit 

anderen Quantifizierungsmethoden gibt zwar Aufschluss darüber, ob man sich im richtigen 

Bereich bewegt, jedoch kann es auch bei diesen Methoden zu Abweichungen vom tatsächlichen 

Wert kommen. Deswegen müssen die Referenzmethoden kritisch betrachtet werden. Um 

eine korrekte Aussage über die Güte der hier entwickelten Methoden zu treffen, werden deshalb 

Simulationen durchgeführt: Synthetische Daten werden mit den entwickelten Konzepten 

analysiert, um die Verfahren zu validieren. 

Es werden zwei Aspekte des Programms validiert. Zum einen findet eine separate Bewertung 

des letzten Teils des Arbeitsablaufs statt, nämlich des Fittings der Hüllkurve. Und zum anderen 

wird die Quantifizierung, im gesamten Prozessablauf betrachtet, validiert. 

5.1. Validierung des Hüllkurven-Fittings 

Die Bewertung des letzten Bausteins – die Bestimmung der Hüllkurve – wird mittels der 

Monte-Carlo-Simulation durchgeführt. Bei einer Monte-Carlo-Simulation werden mehrere 

Szenarien eines Modells erzeugt, um anschließend einen – wie auch immer gearteten – Test 

auf den generierten Szenarien durchzuführen. Die bei dem Test erhaltenen Variablen werden 

in einem Histogramm aufgetragen, auf dem man sehen kann, welcher Verteilung diese folgen, 

und wie groß die Streuung der Variablen ist. Dadurch kann geschätzt werden, in welchem 

Rahmen sich die Qualität des Verfahrens bewegt. 

Die Simulationen sollen aufzeigen, wie stabil das Konzept ist, deswegen werden die generierten 

Hüllkurven mit viel Rauschen versehen. Zusätzlich werden nur wenige, schlecht verteilte 

Punkte aus der Hüllkurve für das Fitting herangezogen. Sehr schwierige Voraussetzungen also, 

um die richtigen Parameter zu bestimmen. 

Als Referenzmodell wird die Hüllkurve einer schweren Kette eines Antikörpers verwendet 

(vgl. Abb. 5.1.1 und Kap. 3.6). Ausgehend von diesem Modell werden insgesamt 500 Szenarien 

erzeugt. Bei jedem Szenario werden die y-Ordinaten des Basismodells mit einem 10%igen 

Gauß-Rauschen versehen. Dies soll, durch Überlappung mit z.B. Addukt-Signalen, verzerrte 

Intensitäten simulieren. Im nächsten Schritt werden zufällig 20 Punkte aus der generier- 

71

ten Hüllkurve gezogen. Basierend auf diesen 20 Punkten wird schließlich ein Fitting durchgeführt, 

bei dem versucht wird die Hüllkurve zu rekonstruieren. 

Für alle so erzeugten und gefitteten Szenarien / Hüllkurven werden die einzelnen Parameter in 

einem Histogramm aufgetragen, um deren Verteilung zu sehen. Die Ergebnisse der Monte- 

Carlo-Simulation sind in Abb. 5.1.2 zusammengefasst. Für alle drei Basisfunktionen sind die 

Histogramme (die Werte, welche aus dem Fitting resultieren) der Parameter Mittelpunkt und 

Sigma (Breite) aufgetragen. Beim Blick auf die Resultate fällt auf, dass die Streuung der Parameter 

Mittelpunkt und Sigma bei den letzten beiden Basisfunktionen am größten ist. Ein 

Grund hierfür kann sein, dass diese beiden stark überlappen müssen, um die resultierende 

Hüllkurve zu erzeugen (vgl. Abb. 5.1.1). B1 ist durch die Hüllkurve verhältnismäßig gut charakterisiert. 

B2 und B3 hingegen sind nicht eindeutig durch die Hüllkurve determiniert, d.h. 

die Position und die Amplitude beider Basisfunktionen können variiert werden und man erhält 

immer noch ein gutes Fitting Resultat (R² nahe 1). Konkret wird im Beispiel B3 beim Fitting 

einerseits von B1 und andererseits von B2 beeinflusst. Dadurch kommt es zu größeren Abweichungen 

der Parameter von den tatsächlichen Werten. 

Beim Betrachten der großen Parametervarianzen darf man nicht vergessen, dass die Simulationen 

schwierig ausgelegt sind – sie sollen die Grenzen aufzeigen. So beträgt bei den analytischen 

Daten das Rauschen i.d.R. unter 10% und die Punkte, auf denen ein Fitting durchgeführt 

wird, sind meistens äquidistant, was gewährleistet, dass über den gesamten Datenbereich 

ein gutes Fitting durchführbar ist. Bei den Simulationen hingegen wurden die Punkte zufällig 

gezogen. Es kann also durchaus passieren, dass ein Bereich der Hüllkurve überaus gut charakterisiert 

ist und ein anderer sehr schlecht. Dies erklärt, warum die Parameterabweichung vom 

tatsächlichen Wert stellenweise so groß ist (s. Abb. 5.1.2 B3). 

Neben den Parametern der Basisfunktionen ist auch die Betrachtung der Fläche (hier: Summe 

von I(z) über alle Ladungszustände z), welche die Hüllkurve beschreibt, von Interesse. 

Schließlich spiegelt sich die Fläche der Hüllkurve direkt im Quantifizierungsergebnis wider. 

Um diese Eigenschaft zu charakterisieren werden zwei weitere Testreihen gestartet, wobei jede 

1000 Szenarien enthält. Die Anzahl Szenarien wurde verdoppelt, um eine bessere Ge- 

72 

Abb. 5.1.1: Dargestellt ist die Hüllkurve 

einer schweren Kette eines Antikörpers. 

Folgende Verteilung wird für das 

Erzeugen der Hüllkurve verwendet: 

I(z)=B1+B2+B3 

B1=GAUSS(1647,39,4.7) 

B2=GAUSS(1698,60,4.2) 

B3=GAUSS(2855,52,5.4)

nauigkeit für die zu erwartende Standardabweichung zu bekommen. Bei beiden Testreihen 

sind die Bedingungen für das Erzeugen der Datenpunkte identisch zu den vorhin durchgeführten 

Simulationen. Nur bei der zweiten Testreihe gibt es einen Unterschied: Die Punkte sind 

nicht zufällig aus der generierten Hüllkurve gewählt sondern äquidistant, was der Normalfall 

bei biologischen Daten ist. 

80 

70 

60 

50 

40 

30 

20 

10 

0 

80 

70 

60 

50 

40 

30 

20 

10 

B1 - Parameter: Center - StdErr: 8,25 

31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 


0 

34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 

80 

70 

60 

50 

40 

30 

20 

10 


c 

0 

2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98 

B1 - Parameter: Sigma - StdErr: 4,91 

Abb. 5.1.2: Ergebnis einer Monte-Carlo-Simulation mit 500 Tests. Es sind die Histogramme der Parameter Mittelwert 

und Breite / Sigma einer jeden Basisfunktion abgebildet. Für jeden Parameter ist zusätzlich die Standardabweichung 

vom Erwartungswert angegeben. 

Die Variation der Fläche beider Testreihen ist in Abb. 5.1.3 zusammengefasst. Die erste Testreihe 

ergibt eine Standardabweichung der Fläche von 25,8%. Zum Vergleich dazu erhält man 

eine Standardabweichung von nur 2,52% wenn die Punkte äquidistant sind. Sind die Datenpunkte 

äquidistant, stört das 10%-ige Rauschen sowie die geringe Zahl an Datenpunkten 

kaum, was sich in der geringen Standardabweichung der Fläche von nur 2,52% äußert. Dies 

lässt den Schluss zu, dass eine Quantifizierung auf ähnlichen biologischen Daten gut gelingt. 

Einzig im niederprozentualen Bereich, d.h. bei Massen, die mit nur ca. 5% Anteil im Spekt- 

140 

120 

100 

80 

60 

40 

20 

0 

120 

100 

80 

60 

40 

20 

0 

90 

80 

70 

60 

50 

40 

30 

20 

10 

0 

1 2 3 4 5 6 7 8 9 10 11 12 13 14 


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 

73

um vertreten sind, muss man Abstriche in der Qualität machen. Eine exakte Aussage für solche 

Massen ist bei einer Standardabweichung von 2,52% nur noch schwer zu treffen. 

Als Resultat kann man sagen, dass bei sehr schlechten Daten eine automatische Quantifizierung 

für stark ausgeprägte Spezies noch durchführbar ist, wohingegen bei schwach repräsentierten 

Spezies eine Aussage bei so großen Standardabweichungen eher einem Lotto-Spiel 

gleicht. Die Qualität des Ergebnisses kann aber sicherlich durch den Eingriff eines erfahrenen 

Anwenders (visuelle Kontrolle, Setzen der Startparameter) bei schwierigen Fällen gesteigert 

werden. 

5.2. Validierung der Quantifizierungspipeline 

Damit die komplette Quantifizierungspipeline validiert werden kann, muss die Simulation an 

der Wurzel ansetzen, nämlich am Anfang des Quantifizierungsprozesses. Um das zu ermöglichen, 

werden synthetische Spektren erzeugt. Bei den künstlich erzeugten Spektren sind die 

Verhältnisse der zur Synthese verwendeten Massen bekannt. Somit kann bei einer Analyse der 

Spektren mit Massfinder II oder anderen Methoden überprüft werden, ob die korrekten Massenverhältnisse 

gefunden werden. 

Die synthetischen Spektren sind an echte Messungen reduzierter Antikörper angelehnt, d.h. 

die verwendeten Massen entsprechen echten Glykosylierungsformen, die Hüllkurve und das 

Signal-zu-Rausch-Verhältnis sind ähnlich gewählt. Einzig die Adduktanzahl wurde erhöht, 

um die Quantifizierung zu erschweren. Auf die Erzeugung einer gerätespezifischen Basislinie 

74 

45 

40 

35 

30 

25 

20 

15 

10 

5 

180 

160 

140 

120 

100 

80 

60 

40 

20 

0 

Are a-Unde r-Curv e - StdErr: 25,8% 

0 

0 9 18 27 36 45 54 63 72 81 90 99 108 117 126 135 144 153 162 171 180 189 198 

Area-Unde-Curve - StdErr: 2,52% 

90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 

Abb. 5.1.3: Histogramm der Fläche der gefundenen 

Hüllkurven. Der Wert 100 entspricht der tatsächlichen 

Fläche. Ist die Zahl größer 100, so beschreibt 

die gefundene Hüllkurve eine größere Fläche als die 

Tatsächliche. Entsprechend umgekehrt verhält es 

sich, wenn die Zahl kleiner 100 ist. Oben ist die MC 

Simulation für den Grenzfall dargestellt, bei dir die 

Standardabweichung 26% beträgt und unten ist der 

Normalfall gegeben, bei dem ausreichend viele 

Punkte zum Fitten vorhanden sind. Hier beträgt die 

Standardabweichung nur noch 2,52%.

wird verzichtet, weil auch ohne sie ein Vergleich der Quantifizierungsmethoden durchführbar 

ist, d.h. falls eine Basislinie in den synthetischen Spektren vorhanden ist, so stammt diese allein 

von den Addukten der zur Synthese verwendeten Massen sowie vom hinzugefügten 

Grundrauschen. 

Um ein künstliches Spektrum zu erzeugen muss für jede Masse eine Peakserie für den betrachteten 

m/z-Bereich erzeugt werden. Ferner wird die Hüllkurve der Peakserie generiert. 

Anschließend wird die Intensität der Peakserie angepasst, indem sie mit dem festgelegten 

Massenanteil multipliziert wird. Sind alle Peakserien der Massen erzeugt, werden sie moduliert 

(Faltung der Peakserien), so dass ein Spektrum entsteht. Im letzten Schritt wird das generierte 

Spektrum mit einem Gauß-Rauschen versehen. 

Auf die exakte Berechnung der Peakform wird verzichtet, weil sich die Isotopenverteilung bei 

großen Molekülen einer Gauß-Kurve nähert. Folglich werden die Peaks mit einer Gauß- 

Funktion erzeugt. Die beiden Parameter Mittelpunkt und Amplitude der Gaußfunktion sind 

direkt gegeben. Ersterer entspricht dem m/z-Verhältnis und letzterer der Intensität I(z) der 

Hüllkurve am entsprechenden Ladungszustand. Der Wert für den Parameter Halbwertsbreite 

wurde empirisch auf 0,19D festgelegt. Die von dem m/z-Verhältnis abhängige Peakverbreiterung 

wird nicht simuliert, da sie für die Simulation nicht weiter von Belang ist. 

Für die Berechnung der Hüllkurve werden Gauß-Funktionen als Basisfunktionen verwendet. 

Die Hüllkurve der leichten Kette wird abhängig vom simulierten Spektrum mit einer oder 

zwei Basisfunktionen erzeugt. Für die schwere Kette werden durchweg zwei Basisfunktionen 

verwendet. Innerhalb eines Spektrums sind die Hüllkurven für alle Varianten der schweren 

bzw. leichten Kette identisch. Die Parameter zur Erzeugung der künstlichen Spektren sind in 

Tab. 5.2.1 zusammengetragen. 

Für jede Masse werden 44 Adduktsignale erzeugt. Dabei ist die Wahrscheinlichkeit für die 

Bildung eines Addukts auf P(Addukt)=0,21 gesetzt. Die Wahrscheinlichkeit, dass sich n Addukte 

anlagern, ist P(Addukt) n . 

75

Die Auswertung der Spektren findet statt 

76 

Molekül Basisfunktion Amplitude Mittelpunkt Sigma 

Maximale 

Intensität 

AK1 

2,5% Noise 

LK 

B1(z) 

B2(z) 

0,84 

0,16 

26,00 

16,49 

3,55 

1,61 

25316 

SK 

B1(z) 

B2(z) 

0,34 

0,66 

40,00 

56,92 

4,96 

6,59 

16418 

AK2, AK8 

5% Noise 

LK 

B1(z) 

B2(z) 

0,92 

0,09 

17,30 

13,50 

1,15 

0,99 

40000 

SK 

B1(z) 

B2(z) 

0,87 

0,13 

36,64 

35,19 

3,28 

7,00 

54054 

AK3 

2,5% noise 

LK 

B1(z) 

B2(z) 

0,24 

0,76 

18,98 

26,88 

1,89 

2,69 

25000 

SK 

B1(z) 

B2(z) 

0,44 

0,56 

51,44 

36,40 

5,13 

5,09 

4167 

AK4, AK9 

2,5% noise 

LK 

B1(z) 

B2(z) 

0,33 

0,67 

17,70 

27,13 

1,57 

3,30 

14300 

SK 

B1(z) 

B2(z) 

0,26 

0,74 

36,64 

57,29 

7,00 

6,62 

5600 

AK5 

10% noise 

LK 

B1(z) 

--- 

1,00 

--- 

21,94 

--- 

4,21 

--- 

333 

SK 

B1(z) 

B2(z) 

0,39 

0,61 

44,03 

58,59 

6,99 

6,99 

300 

AK6 

30% noise 

LK 

B1(z) 

--- 

1,00 

--- 

20,59 

--- 

4,63 

--- 

57 

SK 

B1(z) 

B2(z) 

0,57 

0,43 

41,02 

57,18 

6,89 

5,96 

50 

AK7 

2,5% noise 

LK 

--- 

--- 

--- 

--- 

--- 

--- 

--- 

--- 

--- 

SK 

B1(z) 

B2(z) 

0,25 

0,75 

30,08 

43,29 

4,85 

5,35 

18750 

• manuell (per Hand mit Lineal), 

• mit der In-House Entwicklung, 

• mit dem MaxEnt-Algorithmus. 

• und mit Massfinder II. 

Tab. 5.2.1: Die 

Tabelle gibt die 

Daten, welche 

zur Erzeugung 

der Hüllkurven 

verwendet wurden, 

wieder. 

Bei der Analyse mit Massfinder II werden drei Quantifizierungsarten (QA) betrachtet: 

• QA1: Die Peakauswahl entspricht der zweiten Variante aus Kap. 3.1 (Schnittmenge). 

Die Hüllkurve wird nicht bestimmt, d.h. als Intensität wird die Intensität des 

Spektrums an entsprechender Stelle verwendet. 

• QA2: Die Peakauswahl entspricht der dritten Variante aus Kap. 3.1 (Schnittmenge 

& nicht überlappend). Auch hier wird die Hüllkurve nicht bestimmt. 

• QA3: Die Peakauswahl entspricht der vierten Variante aus Kap. 3.1 (alle). Die Hüllkurve 

wird durch Fitting bestimmt. 

Diese drei Varianten werden einmal direkt auf das Spektrum angewendet und einmal nachdem 

die Basislinie mit einer der drei vorgestellten Methoden entfernt wurde. Es werden also drei 

Arten mit vier Methoden des Basislinienabzugs getestet, somit werden insgesamt 12 Möglichkeiten 

der Quantifizierung durchleuchtet. 

Da die Analyse bei allen Methoden manuelle Schritte enthält, welche Zeit kosten, wurde die 

Untersuchung auf 9 synthetische Spektren beschränkt. Diese Anzahl ist für eine umfassende

Bewertung zwar zu gering, jedoch gibt sie bereits eine Aussage darüber, in welchem Rahmen 

sich die betrachteten Verfahren bewegen. Um die Methoden besser vergleichen zu können, 

wird neben den ermittelten Verhältnissen auch die Standardabweichung zur Referenz angegeben. 

Die detaillierten Ergebnisse der Simulation sind in Anhang A zu finden. 

Die Entwickler des „Maximum Entropie“-Algorithmus schreiben, dass die Ergebnisse, welche 

aus der Entfaltung eines Spektrums stammen, nicht zur Quantifizierung verwendet werden 

sollten, weil der Entropieprozess einen Bias durch seine Nichtlinearität hineinbringt [Reinhold92], 

d.h. die von MaxEnt gefundenen Intensitäten sind nicht proportional zu den Intensitäten 

im gemessenen Spektrum. In [Schmieder97] ist außerdem zu lesen, dass der Fehler zum 

einen durch das Spektrum selber und zum anderen durch die zur Entfaltung verwendeten Parameter 

stark beeinflusst wird. Vermutlich ist wegen dieser zwei äußeren Faktoren in der Literatur 

keine Aussage darüber zu finden, in welchem Rahmen sich der Quantifizierungsfehler 

bei MaxEnt befindet. Dies hat dazu bewegt, auch den MaxEnt-Algorithmus mit in die Auswertung 

einzubeziehen. 

Im Folgenden werden die Ergebnisse jeder Quantifizierungsmethode diskutiert. Zum besseren 

Verständnis der Diskussion werden die Daten aus Anhang A als Diagramme aufbereitet. Auf 

der x-Achse der Diagramme sind alle Massen welche zur Synthese der Spektren verwendet 

wurden aufgetragen und zwar geordnet nach deren jeweiligen Anteil am Spektrum. Auf der y- 

Achse befindet sich der Quotient aus ermittelter Quantität und dem Erwartungswert (Referenz-Quantität). 

Man erhält also für jede Methode ein Streudiagramm, welches die Informationen 

aller Experimente kapselt. Im Idealfall (d.h. jeder Massenanteil wurde richtig vorhergesagt) 

sollte man eine Gerade sehen, welche auf 100% liegt. Ist eine Masse überbewertet, d.h. 

es wird mehr Anteil am Spektrum vorhergesagt, so ist der Wert an entsprechender Stelle größer 

100%. Analog dazu ist bei einer Unterbewertung der Wert kleiner 100%. Um die Tendenzen 

besser zu erkennen, werden die Punkte durch Linien verbunden. Damit unterbewertete 

Massen nicht bevorzugt dargestellt werden, wird die y-Skala logarithmiert. 

Die Resultate der Simulation zeigen, dass der MaxEnt-Algorithmus im Schnitt eine geringe 

Standardabweichung aufweist (Tab. 5.2.2). Betrachtet man das Streudiagramm (vgl. Abb. 

5.2.1) von MaxEnt, so sieht man, dass für Quantitäten unter 10% eine große Streuung in der 

Genauigkeit herrscht. Teilweise wird sogar die tatsächliche Quantität um das 6fache überbewertet. 

Ab einem Massenanteil von mehr als 10% lässt sich der MaxEnt-Algorithmus gut für 

die Quantifizierung verwenden. Offensichtlich eignet sich MaxEnt für die Quantifizierung der 

hier untersuchten Problemklasse. Ob diese Aussage auch für Spektren anderer Proteine zutrifft, 

wurde nicht untersucht. 

77

Bei der manuellen Quantifizierung gab es Schwierigkeiten bei den Spektren AK5 und AK6. 

Das schlechte Signal-zu-Rausch-Verhältnis hat eine Messung per Hand ausgeschlossen. Für 

alle anderen Spektren wurde die Quantifizierung durchgeführt und die erhaltenen Werte liegen 

sehr nahe an der Referenz. 

78 

1000% 

10% 

1000% 

10% 

Abb. 5.2.2: Quantifizierungsvarianz eines Laboranten. 

MaxEnt 

100% 

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 

Abb. 5.2.1: Quantifizierungsvarianz von MaxEnt 

Manuell 

100% 

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%

Die Standardabweichung ist bei der manuellen Bewertung nie höher als 2,5% und im Schnitt 

liegt sie bei 1,4% (vgl. Tab. 5.2.2). Ein Blick auf das Streudiagramm in Abb. 5.2.2 zeigt, dass 

auch bei der manuellen Messung, Massen mit einem geringen Anteil am Spektrum (kleiner 

10%) schwer zu quantifizieren sind. Die Streuung ist aber halb so groß wie bei MaxEnt. 

Das In-House entwickelte Quantifizierungsprogramm, welches über die 4. Ableitung quantifiziert, 

schneidet bei der Auswertung mit am schlechtesten ab. Dies hat überrascht, wo doch die 

gleichen Peaks für die Quantifizierung verwendet wurden wie bei QA2. Beim Betrachten von 

Abb. 5.2.3 fällt außerdem auf, dass die Messungen verfälscht sind. Massen mit einem geringem 

Anteil am Spektrum werden überbewertet und Massen mit einem hohen Anteil werden 

unterbewertet. Ob das Programm nun tatsächlich schlechter quantifiziert oder das Ergebnis 

durch falsche Programmparameter verfälscht wurde, konnte nicht geklärt werden. An dieser 

Stelle besteht noch Klärungsbedarf. 

1000% 

In-House Entwicklung 

100% 

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 

10% 

Abb. 5.2.3: Quantifizierungsvarianz der In-House Entwicklung. 

Nachdem die Quantifizierung mit MaxEnt, mit der Hand und mit der In-House Entwicklung 

betrachtet wurde, werden im Folgenden die verschiedenen Quantifizierungswege von Massfinder 

II betrachtet. 

In Abb. 5.2.4 ist das Resultat abgebildet, welches man erhält, wenn die Basislinie nicht abgezogen 

wird. Unabhängig von der Quantifizierungsart, lässt sich ein starker Bias beobachten, 

der sich analog zur In-House Entwicklung verhält. Ebenso lässt sich auch hier bei ca. 10% die 

Stelle finden, bei der ein Qualitätssprung stattfindet. Innerhalb dieser Gruppe schneidet QA3 

(Bestimmung der Hüllkurve) v.a. im Bereich unter 10% am besten ab. 

79

Ein ähnliches Bild bietet sich, wenn die Basislinie mit einem Spline abgezogen wird (vgl. 

Abb. 5.2.5). Hier wird zwar die Stärke des Bias abgeschwächt, jedoch bleibt die Tendenz des 

Bias die gleiche wie bei nicht abgezogener Basislinie. Der Abzug der Basislinie mit dieser 

Methode ist demnach nicht empfehlenswert, da es den Bias nur geringfügig korrigiert. 

80 

1000% 

1000% 

10% 

Basislinie: nicht abgezogen 

100% 

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 

10% 

Abb. 5.2.4: Quantifizierungsvarianz von MF II bei nicht abgezogener Basislinie. 

Basislinie: Spline 

100% 

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 

Abb. 5.2.5: Quantifizierungsvarianz von MF II bei Abzug der Basislinie mittels Spline-Interpolation. 

QA1 

QA2 

QA3 

QA1 

QA2 

QA3

Als nächstes werden die Ergebnisse nach Elimination der Basislinie mittels 4. Ableitung betrachtet 

(vgl. Abb. 5.2.6). Mit diesem Ansatz ist kein Bias mehr zu beobachten. Somit kann 

man diese Methode für die Quantifizierung heranziehen, jedoch gilt auch hier, dass die Güte 

der Vorhersage bei einem Massenanteil von unter 10% stark abnimmt. QA2 und insbesondere 

QA3 erreichen in diesem Grenzbereich bessere Ergebnisse als QA1. 

1000% 

Basislinie: 4. Ableitung 

100% 

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 

10% 

Abb. 5.2.6: Quantifizierungsvarianz von MF II bei entfernen der Basislinie mittels 4. Ableitung. 

Als letzte Methode wird der Abzug der Basislinie mit dem „Tal-zu-Tal“-Verfahren betrachtet 

(vgl. Abb. 5.2.7). In Kap. 3.3.1 wurde gezeigt, dass mit dieser Variante u.U. zuviel vom Signal 

abgezogen wird. Solche Fälle treten auf, wenn Peaks sehr nahe neben anderen Peaks liegen, 

so dass die Basislinie zuviel wegschneidet (vgl. Abb. 3.3.1.1). Dadurch, dass bei manchen 

Peaks mehr Signal als bei anderen abgeschnitten wird, wird ein starkes Rauschen in der 

Hüllkurve generiert. Die direkte Folge ist, dass ein Fitting der Hüllkurve bei zu starkem Rauschen 

nicht gut gelingen kann. Dies ist wahrscheinlich der Hauptgrund dafür, dass QA3 

manchmal schlechter abschneidet als QA2. Trotz aller Kritik an der „Tal-zu-Tal“-Variante 

und den offensichtlichen Schwächen, zeigt die Auswertung, dass man mit dieser Variante mit 

die besten Ergebnisse erzielt. Evt. gleichen sich die beim Basislinienabzug gemachten Fehler 

beim Betrachten mehrerer Peaks wieder aus, so dass das Ergebnis am Ende wieder stimmt. Ob 

dies wirklich die Ursache ist, bleibt aber offen. Hierzu sind genauere Untersuchungen notwendig. 

Für die verschiedenen Arten des Basislinienabzugs lässt sich zusammenfassend sagen, dass 

die Ergebnisse durchweg besser sind, wenn die Basislinie abgezogen wird. Ferner ist bei Massenanteilen 

unter 10% nur mit den Methoden „Tal-zu-Tal“ bzw. „4. Ableitung“ in Kombination 

mit QA3 noch eine halbwegs vernünftige Aussage durchführbar. 

QA1 

QA2 

QA3 

81

Die Daten aus Anhang A sind in Tabelle 5.2.2 zusammengefasst worden. Dabei sieht man, 

dass die Quantifizierung per Hand, mit MaxEnt sowie mit QA3 über die 4. Ableitung die besten 

Ergebnisse liefern. Die Tatsache, dass sich mit den hier entwickelten Methoden selbst 

schwierige Spektren wie AK5 und AK6 quantifizieren lassen, spricht für die Robustheit von 

Massfinder II. 

MaxEnt hat durch seine Genauigkeit für diese Problemklasse überrascht, wo doch die allgemeine 

Meinung kursiert, dass es für die Quantifizierung nicht geeignet ist. Die Tatsache, dass 

es sich beim MaxEnt-Algorithmus um ein Black-Box-System handelt, spricht allerdings gegen 

dessen Verwendung, denn man kann sich nie wirklich sicher sein, ob ein Fehler nun auftritt 

oder nicht. 

82 

1000% 

100% 

10% 

1% 

Abb. 5.2.7: Quantifizierungsvarianz von MF II bei Abzug der Basislinie mit dem Tal zu Tal verfahren. 

Basislinie: 

nicht 

abgezogen 

Basislinie: 

Tal zu Tal 

Manuell 

MaxEnt 

In-House Lösung 

1,4% 

1,5% 

5,2% 

Basislinie: Tal zu Tal 

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 

QA1 5,1% QA1 4,8% 

Basislinie: 

QA2 3,8% QA2 3,9% 

Spline 

QA3 3,2% QA3 2,7% 

QA1 2,5% QA1 2,7% 

Basislinie: 4. 

QA2 1,3% QA2 2,0% 

Ableitung 

QA3 1,6% QA3 1,3% 

QA1 

QA2 

QA3 

Tabelle 5.2.2: Zusammenfassung 

der Validierung. 

Es sind die durchschnittlichenStandardabweichungenangegeben. 

Es sind nur diejenigen 

Datensätze verwendet, 

bei denen alle Methoden 

ein Ergebnis geliefert 

haben.

Vergleicht man die drei Quantifizierungsarten von Massfinder II miteinander, so stellt man 

fest, dass die QA1 am schlechtesten abschneidet. Der Grund liegt daran, dass überlappende 

Peaks mit in die Quantifizierung einbezogen werden und das Ergebnis dadurch verfälscht 

wird. Als zweitbeste Methode hat sich die QA2 herauskristallisiert. Diese betrachtet nur diejenigen 

Peaks, welche nicht durch andere überlagert sind. Die dritte Methode, QA3, ist ähnlich 

gut wie QA2. Bei QA3 werden alle Peaks zur Quantifizierung herangezogen, jedoch wird 

die Hüllkurve durch ein Fitting bestimmt. Der mögliche Grund, warum QA2 und QA3 ähnliche 

Werte liefern, ist folgender: Bei den synthetischen Spektren kommen nicht viele Fälle vor, 

bei denen, wie in Abb. 3.6.4.2 gezeigt, nicht erfasste Addukt-Signale der leichten Kette mit 

Signalen der schweren Kette überlappen. Deswegen bringt das Fitting der Hüllkurve keine 

bzw. kaum Verbesserung an dieser Stelle. Wenn aber die Ergebnisse von QA2 und QA3 signifikant 

abweichen, dann ist QA3 besser positioniert. 

5.3. Experimentelle Resultate 

In den letzten Kapiteln wurde anhand künstlicher Daten gezeigt, wie zuverlässig die konzipierten 

Methoden tatsächlich sind. Die Monte-Carlo-Simulation hat gezeigt, dass das Fitting 

der Hüllkurve auch mit schlechten Daten noch gut durchführbar ist. Die Untersuchung der 

kompletten Quantifizierungspipeline hat das Bild weiter bestätigt. Die besten Methoden von 

Massfinder II sind mit ca. 1,5% Standardabweichung sehr nahe an der Realität. Selbst durch 

starkes Rauschen bzw. durch Peaküberlagerung charakterisierte Spektren lassen sich mit 

Massfinder II im Gegensatz zur manuellen Methode noch gut quantifizieren. 

Nach der Validierung anhand künstlicher Daten wurden empirische Daten betrachtet. Die eingesetzten 

Analysemethoden sind die gleichen wie bei der Simulation: Massfinder II, manuell, 

In-House Lösung und MaxEnt. Als Untersuchungsmaterial standen 11 Spektren zur Verfügung. 

Die Ergebnisse der Quantifizierung sind in Anhang B dargestellt. Als Hinweis sei erwähnt, 

dass in manchen Fällen QA1 und QA2 gleiche Massenverhältnisse liefern. Das liegt 

daran, dass bei QA2 keine Überlappungen mit anderen Peaks gefunden werden, und somit 

dieselben Ladungszustände wie bei QA1 zum Quantifizieren verwendet werden. 

Die Schwierigkeit bei diesen und anderen empirischen Daten besteht darin, dass es keine Referenzmethode 

gibt. Folglich kann man bei dem durchgeführten Vergleich nur feststellen, ob 

die Methoden im selben Rahmen bleiben oder nicht. Eine Aussage darüber, welche Methode 

die bessere ist, kann nicht getroffen werden. 

83

Ebenso wie bei der Simulation präsentiert sich auch bei den empirischen Daten das gleiche 

Bild: Ist die Basislinie abgezogen, so sind die Werte näher an denen der anderen Methoden. 

Außerdem liegt QA1 i.d.R. am weitesten von den anderen Messungen entfernt. 

Bei den Spektren AK2 und AK3 handelt es sich um die gleichen Messungen. Der Unterschied 

liegt in der Signalqualität. Während AK3 die Summe vieler Messungen ist, ist AK2 das Ergebnis 

nur einer Messung. Folglich ist bei AK2 der Rauschanteil mit ca. 20% sehr groß, während 

bei AK3 das Rauschen unter 2% beträgt. Dies ermöglicht eine Beurteilung der Robustheit 

anhand empirischer Spektren. So sieht man beim Vergleich jeder Messung zwischen 

AK2 und AK3, dass die Werte sehr ähnlich sind, unabhängig von dem Rauschanteil. Die Verfahren 

können also auch mit schlechten Daten gut umgehen. 

Eine genaue Analyse, welche beurteilen kann warum ein Verfahren für eine Masse mehr oder 

weniger Anteil vorhersagt als die anderen muss noch durchgeführt werden. Offensichtlich hat 

aber der Abzug der Basislinie eine große Auswirkung auf das Ergebnis, wie man beim Betrachten 

der synthetischen bzw. der empirischen Spektren sieht. Das Problem bei der Basislinie 

ist, dass es fremdes Signal enthält, man aber nie weiß ob man in jedem Bereich des Spektrums 

richtig abzieht. Es kann sein dass zuviel oder zuwenig vom Spektrum abgezogen wird. 

Für eine genauere Untersuchung könnte man Proben mit einer dritten unabhängigen (z.B. 

chemischen) Methode quantifizieren und anschließend eine ESI-MS-Aufnahme davon durchführen. 

Dies würde es ermöglichen den Einfluss der Basislinie zu erkennen bzw. in Zahlen zu 

beziffern. Hat man einmal die verschiedenen Formen und Anteile der Basislinie am Spektrum 

erfasst, könnte man in einem nächsten Schritt bei der Erzeugung synthetischer Spektren ähnliche 

Basislinien dazuaddieren um anschließend eine detaillierte Analyse zu tätigen. Zur Klarstellung 

sei hier nochmals erwähnt, dass bei den hier erzeugten künstlichen Spektren keine 

Basislinie dazuaddiert wurde. Wenn eine schwach-intensive Basislinie vorhanden war, dann 

stammt diese allein von Adduktsignalen. Echte Spektren weisen i.d.R weitaus stärkere Basislinienanteile 

auf. 

84

6. Zusammenfassung und Ausblick 

Dank der ESI-MS-Technologie ist man heute in der Lage, große Biomoleküle als Ganzes zu 

analysieren. Ein besonders wichtiger Aspekt der ESI-MS ist die Analyse der Glykosylierungsprofile 

von Antikörpern und anderen Proteinen, weil diese maßgeblich deren Funktion 

determinieren. Für die medizinische Therapeutik ist es deshalb von großer Relevanz, zu wissen, 

in welchem Verhältnis verschiedene Glykovarianten eines Proteins stehen. Die Bestimmung 

dieser Quantitäten direkt aus dem Spektrum ist keine triviale Aufgabe, weil Peakhöhen 

und Formen durch Überlagerung mit anderen Peaks verfälscht werden. Sie verlieren ihre 

Gauß-Form, sie bekommen Schultern, Sättel, etc. Vorhandene Softwareprodukte lösen dieses 

Problem nur unbefriedigend, weshalb eine Neuentwicklung gewünscht war. 

Mit Massfinder II wurde das ursprünglich für die qualitative Analyse von Antikörper ESI-MS 

Spektren entwickelte Programm um Methoden für eine quantitative Analyse erweitert. Neben 

der Möglichkeit, eine manuelle Quantifizierung der Spektren durchzuführen, wurden robuste 

Methoden für eine weitestgehend automatisierte Quantifizierung implementiert. Die softwaretechnische 

Umsetzung wurde mittels Tcl/Tk und ANSI-C vollzogen, wobei Tcl/Tk für die 

Präsentationsschicht verwendet wird und ANSI-C für die darunter liegenden Logikschichten. 

Basierend auf Monte-Carlo-Simulationen wurde eine Aussage über die Güte der entwickelten 

Verfahren gemacht. Die einfache Variante QA1 hat sich als die schlechteste erwiesen. Mit 

dem weitestgehend automatisierten Verfahren QA2 lassen sich nach Abzug der Basislinie gute 

Ergebnisse erzielen. Für noch präzisere Ergebnisse muss QA3 angewendet werden – diese 

ist jedoch mit einem erhöhten Zeitaufwand verbunden, weil das Hüllkurven-Fitting für jede 

Masse einzeln betrachtet werden muss. Bei der Wahl einer geeigneten Methode für die Elimination 

der Basislinie ist die Variante „4. Ableitung“ zu empfehlen. 

Als Schlussfolgerung der Validierung kann man festhalten, dass das Ziel erreicht wurde Verfahren 

zu entwickeln, welche ähnlich gute Ergebnisse liefern, wie die durch „erfahrene“ Laboranten 

durchgeführte manuelle Quantifizierung. Dies hat drei Konsequenzen: die Quantifizierung 

lässt sich schneller durchführen, schlechte Spektren lassen sich dank der Robustheit der 

Verfahren auch noch gut quantifizieren und zum anderen können mit Massfinder II auch 

„unerfahrene“ Laboranten reproduzierbare Ergebnisse liefern. Neben den automatisierten Prozessen 

wird auch die manuelle Quantifizierung im Programm zur Verfügung gestellt, so dass 

Fälle bei denen die Automatik nur unzureichende Ergebnisse liefert noch behandelt werden 

können. Massfinder I und II wurden zwar im Hinblick auf Antikörper entwickelt, jedoch lassen 

sich die Module „Qualitative Analyse“ und „Quantitative Analyse“ auch für andere Biomoleküle 

verwenden, was Massfinder II zu einem flexiblen Werkzeug in der Analytik macht. 

85

Im Hinblick auf die technische Umsetzung gibt es noch Möglichkeiten zur Verbesserung. So 

ließe sich auf Kosten der Transparenz der Quantifizierungsprozess noch weiter beschleunigen, 

indem separate Schritte zusammengefasst werden. Gemeint sind der Abzug der Basislinie, die 

Auswahl der Ladungszustände und die Quantifizierung an sich. 

Ist eine Funktionserweiterung für Massfinder II vorgesehen, so empfiehlt sich auch ein Wechsel 

der GUI-Plattform. Mit der Skriptsprache Tcl/Tk bewegt man sich hier mit über 10.000 

Zeilen Code bereits an den Grenzen des Machbaren. Aufgrund der Tatsache, dass die Sprache 

nicht typisiert ist, sind unvorhersehbare Laufzeitfehler vorprogrammiert. Es kann nicht jedes 

Szenario überprüft werden, weil die möglichen Kombinationen der Userinteraktion mit der 

Programmoberfläche nahezu unbegrenzt sind. Für eine solidere Grundlage bedarf es einer 

besser strukturierten Programmiersprache, die typisiert ist und zur Compile-Zeit bereits einen 

Großteil der Fehler abfängt. Da die GUI und die Logik in dem jetzigen Zustand bereits stark 

getrennt sind, lässt sich ein Wechsel auf eine andere Plattform für die Sicht mit verhältnismäßig 

wenig Aufwand durchführen. Als Alternative zu Tcl/Tk käme C/C++, C# oder Java in 

Frage, wobei Java die Ideologie der Betriebssystem-Unabhängigkeit am besten umsetzen 

würde. 

Bei der Methodik besteht an manchen Stellen noch Raum für Optimierung. So könnte man im 

Falle von Antikörpern die Quantifizierung auf den mittleren Ladungszustand beschränken, 

welcher am besten ausgeprägt ist. Die Randbereiche weisen meistens eine geringe Intensität 

auf und lassen sich aufgrund dessen durch Störfaktoren leichter beeinflussen und dadurch 

leichter verfälschen. Das Prinzip, dass ähnliche Spezien eine ähnliche Ladungsverteilung haben, 

könnte man für die bessere Bestimmung der Hüllkurve anwenden: Die Spektren weisen 

i.d.R. eine Hauptspezies auf, die gut repräsentiert ist. Für diese ist die Bestimmung der Hüllkurve 

meistens problemlos möglich. Die so gewonnen Parameter der Basisfunktionen könnten 

bis auf die Amplitude für Varianten der Hauptspezies wieder verwendet werden. D.h. die Parameter 

Mittelpunkt und Halbwertsbreite werden von der Hauptspezies übernommen und 

festgehalten. Das Fitting wird auf die Amplitude als freien Parameter beschränkt. 

Ein gänzlich anderer Ansatz für die Quantifizierung wäre es, den MaxEnt-Algorithmus hierzu 

zu verwenden. Die Schwierigkeit besteht darin, die Nichtlinearität des Algorithmus zu korrigieren. 

In [Schmieder97] wurde für NMR-Spektren bereits ein solcher Korrektur- 

Mechanismus entwickelt. Ob für ESI-Spektren auch die Möglichkeit besteht, die Nichtlinearität 

des MaxEnt Algorithmus zu korrigieren, muss untersucht werden. Eine interessante Möglichkeit 

wäre dies auf jeden Fall, weil dadurch eine komplette Automatisierung des Quantifizierungsprozess 

möglich wäre und trotzdem noch gute Ergebnisse erzielt werden. 

86

Anhang 

A. Quantifizierungsergebnisse synthetischer Spektren 

Ergebnisse des Vergleichs zwischen verschiedenen Quantifizierungsarten anhand synthetischer 

Spektren. Die Referenz entspricht den tatsächlichen Werten. Die grauen Prozentzahlen 

entsprechen den von den jeweiligen Methoden gefundenen Verhältnissen. Die blauen Zahlen 

geben die Standardabweichung zur Referenz wieder. Bei manchen Datensätzen war eine 

Quantifizierung mit der entsprechenden Methode nicht möglich. Bei QA2 liegt das daran, dass 

keine nicht überlappenden Peaks gefunden wurden. Bei der manuellen Methode hingegen 

liegt das am zu schlechten Signal-zu-Rausch-Verhältnis des Spektrums. 

Molekül Massen Referenz Manuell MaxEnt 

In-House 

Lösung 


QA1 QA2 QA3 

AK1 48801 65.1% 62.9% 62.6% 59.4% 53.2% 55.1% 56.6% 

(SK) 48963 10.8% 13.3% 13.7% 13.2% 14.5% 15.3% 15.1% 

49090 5.1% 4.4% 4.1% 6.6% 8.4% 6.7% 6.2% 

49123 5.8% 6.9% 6.5% 6.8% 10.2% 8.5% 8.0% 

48929 13.2% 12.5% 13.2% 14.0% 13.7% 14.4% 14.2% 

1.6% 1.8% 2.9% 6.1% 5.1% 4.4% 




QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3 

67.5% 70.1% 72.4% 53.8% 55.8% 57.5% 61.8% 65.6% 67.2% 

9.3% 10.2% 9.7% 14.4% 15.2% 15.0% 9.2% 11.2% 10.9% 

6.2% 3.8% 3.2% 8.2% 6.5% 5.8% 6.9% 5.0% 4.5% 

8.0% 5.9% 5.1% 10.0% 8.3% 7.7% 8.6% 6.1% 4.9% 

9.1% 10.0% 9.6% 13.6% 14.3% 14.1% 13.5% 12.2% 12.6% 

2.5% 2.8% 3.8% 5.8% 4.8% 4.0% 2.2% 0.6% 1.1% 


In-House 

Lösung 


QA1 QA2 QA3 

AK1 23428 88.5% 86.4% 86.6% 83.4% 76.5% 82.4% 82.7% 

(LK) 23590 6.5% 7.6% 6.9% 6.3% 10.9% 8.4% 8.3% 

23612 2.3% 6.0% 3.8% 4.6% 8.4% 5.0% 5.0% 

23753 2.6% 0.0% 2.7% 5.7% 4.3% 4.3% 4.0% 

2.5% 1.2% 3.2% 7.1% 3.5% 3.3% 


Basislinie: Spline Basislinie: 4. Ableitung 


84.5% 88.3% 90.9% 77.0% 77.0% 84.4% 82.0% 85.4% 87.3% 

7.9% 6.2% 4.4% 10.7% 10.7% 7.2% 8.5% 5.9% 5.4% 

5.2% 3.0% 2.2% 8.2% 8.2% 5.3% 7.2% 5.9% 4.9% 

2.5% 2.6% 2.5% 4.1% 4.1% 3.0% 2.4% 2.8% 2.5% 

2.5% 0.4% 1.6% 6.8% 6.8% 2.5% 4.2% 2.4% 1.5% 

87

88 


In-House 

Lösung 


QA1 QA2 QA3 

AK2 48765 4.7% 3.6% 3.9% 9.7% 5.6% 5.5% 4.5% 

49983 3.4% 3.2% 2.1% 2.8% 3.4% 3.2% 3.1% 

50211 29.3% 28.4% 25.8% 22.4% 24.7% 25.0% 25.2% 

50373 37.8% 36.4% 34.1% 29.9% 31.9% 32.2% 32.8% 

50414 6.1% 10.0% 13.8% 15.9% 14.2% 14.3% 14.6% 

50536 13.8% 12.0% 12.7% 11.5% 12.6% 12.1% 12.1% 

50576 5.0% 6.4% 7.6% 7.9% 7.7% 7.7% 7.7% 

1.9% 3.7% 5.9% 4.3% 4.3% 4.2% 

Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung 


5.2% 5.2% 4.6% 5.6% 5.5% 4.6% 4.7% 4.9% 4.5% 

3.7% 3.4% 3.1% 3.5% 3.2% 3.1% 3.7% 3.2% 2.9% 

27.2% 27.1% 27.9% 24.6% 25.0% 25.2% 28.2% 27.2% 27.7% 

34.1% 34.7% 35.6% 31.8% 32.1% 32.8% 35.5% 35.5% 35.9% 

10.1% 10.4% 9.4% 14.3% 14.3% 14.6% 9.9% 9.9% 10.3% 

13.4% 12.7% 12.9% 12.6% 12.1% 12.1% 12.0% 13.0% 12.8% 

6.3% 6.6% 6.4% 7.7% 7.7% 7.7% 6.0% 6.3% 5.8% 

2.3% 2.3% 1.7% 4.4% 4.3% 4.2% 1.9% 2.0% 1.9% 


In-House 

Lösung 


QA1 QA2 QA3 

AK3 48207 10.7% 11.2% 10.2% 5.7% 3.7% 7.9% 

(SK) 48296 9.7% 9.2% 5.8% 10.9% 7.3% 7.3% 

48334 32.5% 34.3% 28.3% 25.5% 20.5% 21.3% 

48387 3.4% 7.3% 3.5% 10.4% 11.4% 7.0% 

48426 6.6% 6.3% 7.0% 4.2% 6.5% 7.7% 

48455 5.3% 6.3% 4.2% 10.6% 7.0% 7.2% 

48472 1.6% 0.0% 2.9% 4.4% 8.7% 5.0% 

48510 15.5% 14.1% 18.3% 10.4% 11.9% 11.8% 

48541 6.6% 8.9% 10.6% 9.4% 9.1% 9.1% 

48560 5.7% 2.4% 6.7% 5.6% 7.5% 7.9% 

48599 1.3% 0.0% 1.4% 1.6% 3.8% 5.1% 

48688 1.2% 0.0% 1.1% 1.3% 2.6% 2.7% 

1.9% 2.2% 4.1% 5.4% 4.2% 



6.7% 12.4% 3.0% 7.6% 13.1% 11.3% 

7.4% 8.0% 7.2% 7.0% 8.9% 14.0% 

36.9% 37.3% 22.3% 25.5% 22.5% 38.2% 

7.9% 1.4% 11.8% 6.4% 1.0% 1.1% 

2.2% 4.9% 6.2% 7.2% 3.9% 4.9% 

2.2% 3.3% 6.8% 7.8% 5.1% 5.5% 

7.2% 1.1% 8.8% 3.2% 1.1% 0.9% 

16.4% 16.2% 12.4% 13.0% 10.3% 17.1% 

7.8% 8.3% 9.3% 9.3% 30.9% 4.9% 

3.4% 4.8% 7.4% 7.7% 1.2% 0.8% 

0.6% 1.2% 3.1% 4.2% 1.0% 0.7% 

1.3% 1.2% 1.8% 1.3% 1.1% 0.7% 

3.3% 1.9% 5.1% 3.0% 7.9% 2.7%


In-House 

Lösung 


QA1 QA2 QA3 

AK3 24142 2.7% 1.6% 10.2% 3.1% 2.6% 

(LK) 24159 56.5% 41.3% 43.8% 41.5% 42.1% 

24181 6.2% 15.0% 15.9% 15.0% 14.9% 

24200 2.7% 15.8% 6.1% 13.9% 13.6% 

24246 25.8% 22.1% 20.5% 21.0% 21.3% 

24334 4.2% 3.7% 3.0% 4.3% 4.3% 

24424 0.8% 0.4% 0.6% 1.3% 1.2% 

8.4% 7.1% 8.0% 7.8% 



0.4% 0.4% 2.6% 2.3% 3.1% 7.4% 3.2% 

51.3% 51.8% 42.6% 43.2% 43.5% 40.9% 43.5% 

11.1% 10.6% 15.1% 14.9% 20.6% 20.3% 20.6% 

10.7% 10.6% 13.8% 13.7% 12.6% 13.1% 12.6% 

22.5% 22.7% 21.3% 21.3% 17.2% 15.6% 17.2% 

3.3% 3.3% 3.9% 3.9% 2.4% 2.2% 2.4% 

0.7% 0.6% 0.7% 0.7% 0.5% 0.5% 0.4% 

4.3% 4.2% 7.7% 7.5% 8.9% 9.9% 8.9% 


In-House 

Lösung 


QA1 QA2 QA3 

AK4 49732 2.5% 3.2% 1.8% 1.7% 7.3% 5.1% 3.3% 

49813 4.5% 3.8% 3.7% 2.8% 9.2% 5.3% 4.8% 

50017 3.3% 4.8% 2.7% 13.7% 10.2% 11.6% 11.6% 

49960 52.0% 49.0% 52.7% 39.8% 32.0% 37.9% 40.5% 

50089 7.2% 6.1% 7.1% 5.9% 12.5% 8.0% 8.3% 

50121 22.7% 21.3% 25.1% 11.9% 17.2% 19.1% 20.9% 

50252 4.2% 5.1% 3.9% 19.9% 5.6% 5.8% 5.1% 

50279 3.6% 6.7% 3.9% 4.2% 6.1% 7.1% 5.6% 

1.8% 1.0% 8.8% 8.4% 6.2% 5.1% 



8.0% 4.0% 2.5% 7.3% 5.1% 3.3% 5.9% 2.0% 2.7% 

10.2% 4.7% 4.4% 9.2% 5.3% 4.8% 10.9% 21.2% 5.0% 

4.0% 5.1% 4.6% 10.2% 11.6% 11.4% 3.8% 1.9% 4.5% 

41.4% 51.1% 55.7% 32.0% 37.9% 40.6% 40.8% 40.2% 54.0% 

11.5% 4.2% 4.0% 12.5% 8.0% 8.3% 12.9% 8.0% 5.6% 

18.3% 22.1% 24.6% 17.2% 19.1% 20.9% 17.8% 19.4% 24.7% 

2.9% 3.3% 2.3% 5.6% 5.8% 5.1% 3.1% 3.5% 1.9% 

3.7% 5.5% 1.9% 6.1% 7.1% 5.6% 4.9% 3.9% 1.7% 

5.2% 1.6% 2.1% 8.4% 6.2% 5.0% 5.4% 7.4% 1.6% 

Molekül Massen Referenz Manuell 

MaxEnt 

In-House 

Lösung 


QA1 QA2 QA3 

AK5 50564 13.0% 12.1% 11.4% 8.8% 10.0% 9.3% 

50726 18.5% 25.8% 11.7% 12.7% 12.1% 12.8% 

50885 5.6% 8.7% 7.9% 8.5% 10.6% 9.2% 

50693 18.7% 18.1% 12.3% 9.6% 10.0% 10.6% 

50854 19.8% 20.1% 10.3% 11.2% 12.8% 11.9% 

51014 2.5% 0.5% 4.8% 6.4% 7.0% 6.3% 

51036 3.6% 2.6% 6.3% 6.7% 6.6% 7.4% 

51195 3.1% 2.6% 6.4% 6.6% 6.1% 6.5% 

51162 4.5% 3.2% 7.3% 6.9% 5.0% 6.6% 

51324 3.2% 1.6% 6.4% 6.4% 7.0% 6.2% 

49119 2.4% 1.4% 6.1% 7.6% 5.6% 6.3% 

49248 5.1% 3.2% 9.1% 8.8% 7.4% 6.9% 

2.6% 4.6% 5.1% 4.7% 4.7% 

89

90 



11.6% 17.0% 18.6% 9.1% 10.4% 10.1% 13.7% 16.4% 

16.6% 27.6% 20.5% 16.3% 15.7% 17.4% 17.0% 21.5% 

5.0% 5.4% 4.7% 8.9% 9.9% 10.2% 3.8% 5.2% 

9.3% 13.7% 12.1% 11.2% 13.7% 13.6% 14.9% 21.0% 

14.8% 17.7% 19.4% 13.1% 13.7% 14.4% 17.7% 19.3% 

5.0% 1.8% 3.3% 4.8% 4.4% 4.2% 1.8% 3.4% 

5.3% 3.9% 5.6% 5.6% 4.9% 5.3% 4.7% 3.6% 

5.0% 0.1% 2.9% 5.2% 6.5% 4.9% 4.5% 1.7% 

5.9% 5.2% 1.9% 5.7% 7.1% 5.2% 4.4% 1.3% 

4.8% 0.5% 2.6% 4.5% 4.6% 4.2% 3.0% 0.6% 

7.0% 2.2% 3.2% 6.9% 4.0% 5.0% 4.4% 0.9% 

9.8% 5.0% 5.3% 8.9% 5.3% 5.5% 10.1% 5.2% 

3.9% 3.5% 2.8% 3.9% 3.2% 2.9% 2.2% 2.0% 


In-House 

Lösung 


QA1 QA2 QA3 

AK6 50602 70.0% 75.8% 63.6% 47.7% 48.9% 50.9% 

50764 25.0% 22.3% 21.6% 24.1% 24.7% 25.1% 

50927 3.0% 1.1% 6.4% 13.6% 13.3% 12.5% 

49157 2.0% 0.8% 8.3% 14.7% 13.1% 11.5% 

3.4% 5.1% 13.9% 13.0% 11.7% 



67.3% 69.3% 73.9% 61.7% 63.9% 66.0% 67.2% 70.0% 75.9% 

22.0% 21.4% 20.7% 23.8% 24.2% 25.4% 23.2% 22.5% 22.4% 

4.0% 4.0% 2.7% 5.9% 5.6% 4.4% 2.5% 1.7% 0.5% 

6.8% 5.3% 2.8% 8.6% 6.4% 4.2% 7.1% 5.8% 1.2% 

3.2% 2.5% 2.9% 5.5% 4.0% 2.4% 3.1% 2.4% 3.5% 


In-House 

Lösung 


QA1 QA2 QA3 

AK7 35498 7.6% 7.5% 6.8% 6.2% 7.9% 7.5% 7.6% 

35581 11.6% 11.4% 11.1% 11.8% 11.1% 11.1% 11.2% 

35662 14.6% 14.4% 14.3% 14.9% 14.0% 14.2% 14.1% 

35743 16.3% 16.0% 16.3% 16.4% 15.8% 15.9% 15.9% 

35825 16.5% 16.5% 16.6% 16.5% 16.1% 16.2% 16.2% 

35906 14.9% 14.8% 15.2% 15.0% 14.9% 15.0% 15.0% 

35986 10.4% 10.9% 11.0% 11.0% 11.1% 11.1% 11.1% 

36063 8.2% 8.5% 8.7% 8.1% 9.2% 9.0% 8.9% 

0.2% 0.5% 0.6% 0.5% 0.5% 0.4% 



7.7% 7.4% 7.2% 7.4% 7.1% 7.1% 7.3% 7.1% 6.5% 

11.3% 11.4% 11.5% 11.0% 11.0% 11.0% 11.3% 11.3% 11.5% 

14.5% 14.6% 14.7% 14.2% 14.3% 14.3% 14.5% 14.5% 14.7% 

16.2% 16.3% 16.5% 16.1% 16.2% 16.3% 16.3% 16.3% 16.5% 

16.4% 16.5% 16.6% 16.5% 16.5% 16.6% 16.4% 16.4% 16.7% 

14.9% 15.0% 15.0% 15.1% 15.2% 15.2% 15.0% 15.0% 15.3% 

10.4% 10.6% 10.6% 10.9% 11.0% 11.0% 10.7% 10.8% 10.9% 

8.5% 8.2% 8.1% 8.9% 8.7% 8.7% 8.6% 8.6% 8.0% 

0.2% 0.1% 0.2% 0.4% 0.4% 0.4% 0.2% 0.3% 0.5%


In-House 

Lösung 


QA1 QA2 QA3 

AK8 48765.2 4.7% 4.3% 4.5% 9.8% 9.6% 7.7% 6.0% 

49983.1 50.9% 49.7% 51.5% 41.7% 43.1% 45.2% 46.3% 

50210.9 22.4% 22.9% 22.4% 22.3% 20.2% 21.1% 21.3% 

50373.1 4.0% 4.0% 3.5% 5.9% 4.9% 4.9% 5.1% 

50414.4 10.0% 10.7% 10.7% 10.4% 10.8% 10.8% 10.9% 

50536.0 3.0% 3.0% 2.0% 5.0% 5.0% 4.0% 4.1% 

50576.4 5.0% 5.4% 5.4% 5.0% 6.4% 6.4% 6.5% 

0.6% 0.6% 4.1% 3.7% 2.6% 2.1% 

Basislinie: Tal zu Tal Basislinie: Spline 



7.2% 4.9% 4.6% 9.2% 7.2% 5.3% 8.0% 4.8% 5.1% 

48.4% 49.8% 50.8% 45.5% 47.3% 49.1% 49.3% 50.6% 51.0% 

21.7% 22.3% 22.8% 20.6% 21.6% 21.7% 21.7% 22.0% 22.0% 

3.8% 4.1% 4.1% 4.2% 4.3% 4.2% 3.7% 4.0% 4.0% 

10.0% 10.5% 9.8% 10.5% 10.6% 10.8% 9.8% 10.3% 10.5% 

4.0% 2.9% 2.5% 4.3% 3.2% 3.2% 2.6% 3.0% 2.6% 

5.0% 5.6% 5.3% 5.7% 5.8% 5.8% 4.9% 5.4% 4.8% 

1.4% 0.5% 0.3% 2.8% 1.7% 0.9% 1.4% 0.3% 0.3% 


In-House 

Lösung 


QA1 QA2 QA3 

AK9 49732 2.5% 3.6% 1.6% 8.7% 7.4% 5.3% 3.5% 

49813 45.6% 45.9% 48.3% 27.3% 34.0% 35.3% 38.4% 

50017 7.0% 6.3% 5.9% 4.1% 8.8% 10.0% 9.8% 

49960 15.7% 14.6% 14.5% 10.0% 12.9% 14.8% 14.7% 

50089 3.5% 3.9% 3.4% 2.7% 10.5% 5.7% 5.6% 

50121 1.5% 4.5% 1.4% 3.5% 4.7% 4.1% 4.0% 

50252 4.2% 3.0% 3.0% 26.2% 5.8% 6.1% 5.3% 

50279 20.0% 18.2% 22.0% 17.5% 15.9% 18.8% 18.8% 

1.4% 1.4% 10.6% 5.5% 4.2% 3.1% 



7.6% 4.2% 2.5% 7.0% 4.5% 2.6% 5.2% 3.2% 1.9% 

43.0% 44.6% 49.5% 35.7% 37.6% 41.1% 44.5% 46.8% 50.4% 

5.2% 6.6% 6.6% 8.5% 9.7% 9.4% 6.2% 4.9% 6.1% 

11.8% 13.5% 14.8% 13.0% 15.0% 14.9% 12.2% 13.6% 17.0% 

10.1% 3.0% 2.7% 10.3% 5.0% 4.9% 11.3% 4.2% 3.6% 

1.5% 1.3% 0.8% 4.1% 3.3% 3.1% 1.1% 1.9% 1.1% 

3.4% 4.2% 2.8% 5.3% 5.5% 4.6% 2.1% 6.2% 1.5% 

17.5% 22.6% 20.4% 16.2% 19.4% 19.4% 17.4% 19.2% 18.6% 

3.6% 1.4% 1.5% 4.9% 3.2% 2.0% 3.4% 1.4% 2.1% 

91

B. Quantifizierungsergebnisse empirischer Spektren 

Ergebnisse der Quantifizierung von 10 Antikörper-Spektren mit verschiedenen Methoden. 

Moleküle, die mittels der 4. Ableitung quantifiziert wurden, sind durch das Symbol * markiert. 

Bei AK4 und AK5 wurden manche Massen zusammengefasst, weil diese eine gemeinsame 

Glykosylierungsbasis haben. 

Molekül Massen 


QA1 QA2 QA3 


QA1 QA2 QA3 

AK1 50116 11,1% 11,1% 11,5% 8,3% 9,7% 8,7% 

50278 20,0% 20,0% 22,2% 21,8% 25,7% 26,6% 

50440 25,5% 25,5% 25,3% 30,7% 29,5% 30,5% 

50601 14,9% 14,9% 14,0% 13,8% 11,7% 11,6% 

50762 16,9% 16,9% 16,3% 16,8% 16,7% 16,4% 

50909 11,7% 11,7% 10,9% 8,7% 6,8% 6,3% 

92 

Manuell / 

In-House 

MaxEnt 

QA1 


QA2 QA3 


QA1 QA2 QA3 

9,5% 12,7% 9,3% 9,3% 9,7% 9,6% 12,4% 9,5% 

25,4% 24,2% 21,1% 21,1% 24,2% 22,8% 29,2% 29,6% 

29,2% 30,7% 28,5% 28,5% 28,6% 31,5% 31,3% 34,2% 

11,2% 13,9% 14,3% 14,3% 12,7% 12,5% 10,6% 11,0% 

17,3% 12,7% 16,9% 16,9% 16,4% 17,1% 9,9% 10,8% 

7,4% 5,8% 10,0% 10,0% 8,4% 6,5% 6,6% 4,9% 



QA1 QA2 QA3 


QA1 QA2 QA3 

AK2 50602 46,7% 48,8% 50,3% 63,5% 63,6% 68,7% 

* 50764 23,6% 24,4% 23,7% 21,6% 23,2% 23,4% 

50927 14,2% 13,1% 13,1% 7,5% 7,4% 5,5% 

49157 15,5% 13,7% 12,9% 7,5% 5,9% 2,5% 

Manuell / 

In-House 

MaxEnt 

QA1 


QA2 QA3 


QA1 QA2 QA3 

69,5% 83,0% 54,4% 55,9% 62,8% 58,2% 60,2% 72,3% 

25,5% 14,3% 23,2% 24,2% 24,8% 22,0% 23,5% 22,0% 

3,1% 2,5% 10,4% 9,8% 5,9% 9,9% 8,0% 3,3% 

2,0% 0,2% 12,1% 10,1% 6,5% 9,9% 8,3% 2,4% 



QA1 QA2 QA3 


QA1 QA2 QA3 

AK3 50602 47,8% 50,0% 49,6% 63,8% 66,4% 70,6% 

* 50764 23,4% 24,3% 24,8% 22,3% 23,6% 24,5% 

50927 13,9% 12,9% 13,3% 6,6% 5,3% 3,2% 

49157 15,2% 12,9% 12,4% 7,3% 4,7% 1,7% 

Manuell / 

In-House 

MaxEnt 

QA1 


QA2 QA3 


QA1 QA2 QA3 

69,5% 83,0% 56,1% 58,9% 61,8% 64,6% 65,8% 74,3% 

25,5% 14,3% 22,8% 24,2% 24,2% 20,7% 24,2% 23,7% 

3,1% 2,5% 9,7% 8,7% 7,6% 6,2% 5,2% 0,9% 

2,0% 0,2% 11,4% 8,2% 6,4% 8,6% 4,9% 1,1%

Molekül 

AK4 49813 

50015 

50182 

Manuell / 

In-House 

9,0% 

34,0% 

40,0% 

17,0% 

Molekül 

49901 

49959 

50089 

50121 

50063 

50222 

50282 

AK5 49732 

49813 

50017 

Manuell / 

In-House 

9,3% 

54,6% 

29,9% 

Massen 

MaxEnt 

10,1% 

35,6% 

37,2% 

17,0% 

Massen 

49960 

50089 

50121 

50252 



QA1 QA2 QA3 QA1 QA2 QA3 

26,8% 29,8% 29,2% 

18,4% 19,8% 19,1% 



16,3% 

15,4% 8,2% 5,5% 

41,5% 39,2% 39,4% 




28,9% 24,3% 

31,4% 29,4% 

13,9% 

31,5% 31,1% 

37,8% 38,4% 40,2% 

27,4% 28,0% 

25,4% 10,3% 9,2% 

51,3% 

59,1% 60,9% 

26,9% 26,3% 

50279 8,7% 10,0% 9,2% 3,6% 3,6% 3,6% 

MaxEnt 

14,5% 

53,8% 

21,4% 

33,5% 

18,8% 

34,5% 

28,8% 

17,9% 19,4% 

24,6% 

22,7% 



26,2% 19,0% 15,2% 

41,9% 43,6% 47,6% 

25,3% 24,5% 28,4% 

19,0% 22,3% 

32,9% 34,8% 

20,2% 

29,8% 

12,2% 5,5% 

39,4% 36,6% 

33,6% 

14,8% 

39,2% 

14,8% 

19,8% 

42,6% 

15,3% 

15,0% 

4,3% 

36,1% 

44,8% 

14,7% 

14,7% 

30,3% 11,4% 8,8% 

45,7% 53,0% 59,3% 

17,9% 

37,5% 

27,4% 

40,5% 

28,3% 

6,2% 6,5% 7,5% 9,0% 7,4% 6,0% 8,3% 3,6% 

93



QA1 QA2 QA3 


QA1 QA2 QA3 

AK6 35498 7,7% 7,7% 7,6% 4,1% 4,1% 3,4% 

35581 11,6% 11,6% 11,6% 12,2% 12,2% 12,2% 

35662 14,6% 14,6% 14,2% 17,3% 17,3% 17,6% 

35743 16,2% 16,2% 16,4% 20,1% 20,1% 20,5% 

35825 16,4% 16,5% 16,7% 19,5% 19,5% 19,7% 

35906 14,9% 14,9% 14,9% 15,8% 15,8% 16,2% 

35986 10,4% 10,4% 10,5% 7,1% 7,1% 7,0% 

36063 8,2% 8,2% 8,1% 3,9% 3,9% 3,5% 

94 

Manuell / 

In-House 

MaxEnt 

QA1 


QA2 QA3 


QA1 QA2 QA3 

6,0% 7,4% 4,6% 4,6% 4,1% 3,1% 3,1% 2,4% 

11,0% 12,3% 11,0% 11,0% 11,1% 11,6% 11,6% 11,9% 

16,0% 15,3% 16,0% 16,0% 16,3% 16,9% 16,9% 17,1% 

18,0% 16,7% 18,8% 18,8% 19,3% 20,1% 20,1% 20,2% 

19,0% 16,9% 19,1% 19,1% 19,4% 20,4% 20,4% 20,9% 

16,0% 15,7% 16,4% 16,5% 16,2% 16,7% 16,7% 17,2% 

9,0% 9,8% 8,9% 8,9% 8,8% 7,1% 7,1% 6,9% 

5,0% 5,8% 5,2% 5,2% 4,9% 4,1% 4,1% 3,5% 



QA1 QA2 QA3 


QA1 QA2 QA3 

AK7 35340 10,6% 10,6% 10,5% 9,7% 9,7% 9,7% 

35420 16,3% 16,3% 16,3% 18,1% 18,1% 18,3% 

35503 20,9% 20,9% 21,0% 24,0% 24,0% 24,1% 

35584 20,9% 20,9% 21,4% 24,0% 24,0% 24,3% 

35665 15,2% 15,2% 15,1% 14,8% 14,8% 15,0% 

35745 9,7% 9,7% 9,8% 6,7% 6,7% 6,6% 

35825 6,5% 6,5% 6,0% 2,6% 2,6% 2,1% 

Manuell / 

In-House 

MaxEnt 

QA1 


QA2 QA3 


QA1 QA2 QA3 

8,0% 11,0% 9,3% 9,3% 8,4% 9,0% 9,0% 8,4% 

14,0% 16,8% 17,1% 17,1% 16,8% 17,6% 17,6% 17,8% 

20,0% 20,8% 23,3% 23,3% 23,6% 24,2% 24,2% 24,5% 

28,0% 21,3% 23,4% 23,4% 24,2% 24,5% 24,5% 25,0% 

18,0% 16,0% 15,5% 15,5% 16,0% 15,5% 15,5% 15,6% 

9,0% 9,4% 8,0% 8,0% 8,1% 6,7% 6,7% 6,4% 

3,0% 4,7% 3,6% 3,6% 3,0% 2,7% 2,7% 2,3%



QA1 QA2 QA3 


QA1 QA2 QA3 

AK8 35342 13,2% 13,2% 12,9% 12,3% 12,3% 12,2% 

35422 19,2% 19,2% 19,4% 22,4% 22,4% 22,4% 

35504 23,1% 23,1% 23,3% 27,3% 27,3% 27,8% 

35586 21,9% 21,9% 22,1% 24,7% 24,7% 25,2% 

35668 13,8% 13,8% 13,8% 10,6% 10,6% 10,4% 

35747 8,7% 8,7% 8,5% 2,7% 2,7% 2,0% 

Manuell / 

In-House 

MaxEnt 

QA1 


QA2 QA3 


QA1 QA2 QA3 

13,0% 13,5% 11,6% 11,6% 10,8% 13,2% 13,2% 13,0% 

21,0% 20,3% 20,5% 20,5% 21,1% 19,2% 19,2% 19,4% 

26,0% 23,7% 26,3% 26,3% 26,5% 23,1% 23,1% 23,3% 

24,0% 23,1% 24,5% 24,5% 24,8% 21,9% 21,9% 22,2% 

12,0% 14,0% 12,4% 12,4% 12,4% 13,8% 13,8% 13,7% 

4,0% 5,5% 4,7% 4,7% 4,4% 8,7% 8,7% 8,4% 



QA1 QA2 QA3 


QA1 QA2 QA3 

AK9 35341 14,1% 14,1% 14,0% 14,4% 14,4% 14,1% 

35422 20,3% 20,3% 20,3% 24,3% 24,3% 24,5% 

35504 22,3% 22,3% 22,4% 25,2% 25,2% 25,7% 

35585 22,8% 22,8% 22,9% 26,3% 26,3% 27,1% 

35667 11,7% 11,7% 11,6% 6,5% 6,5% 6,2% 

35744 8,9% 8,9% 8,8% 3,3% 3,3% 2,5% 

Manuell / 

In-House 

MaxEnt 

QA1 


QA2 QA3 


QA1 QA2 QA3 

16,0% 14,8% 12,9% 12,9% 12,3% 13,6% 13,6% 13,4% 

24,0% 21,9% 22,0% 22,0% 21,1% 23,8% 23,8% 24,3% 

23,0% 23,1% 25,0% 25,0% 25,3% 25,8% 25,8% 26,1% 

24,0% 24,5% 25,7% 25,7% 27,1% 27,3% 27,3% 27,9% 

9,0% 10,5% 9,4% 9,4% 9,5% 6,2% 6,2% 5,9% 

4,0% 5,2% 5,2% 5,2% 4,7% 3,3% 3,3% 2,5% 



QA1 QA2 QA3 


QA1 QA2 QA3 

AK10 50601 47,0% 49,8% 49,9% 62,0% 64,3% 69,4% 

* 50763 23,6% 24,2% 25,6% 21,8% 22,7% 23,5% 

50927 14,0% 12,9% 11,2% 7,8% 6,6% 4,1% 

49152 15,4% 13,1% 13,4% 8,4% 6,5% 3,0% 

Manuell / 

In-House 

MaxEnt 

QA1 


QA2 QA3 


QA1 QA2 QA3 

69,0% 69,0% 54,4% 56,9% 59,9% 57,6% 59,4% 74,7% 

25,6% 28,0% 23,1% 24,1% 24,8% 21,7% 22,7% 21,4% 

3,4% 2,9% 10,3% 9,6% 7,7% 10,5% 9,6% 2,9% 

2,0% 0,1% 12,2% 9,4% 7,6% 10,2% 8,3% 0,9% 

95



QA1 QA2 QA3 


QA1 QA2 QA3 

AK11 50564 8,4% 13,1% 7,4% 10,0% 3,3% 16,9% 

50726 10,7% 11,6% 12,3% 11,2% 26,5% 16,9% 

50885 8,6% 7,3% 9,0% 6,5% 3,0% 0,8% 

50693 10,9% 11,8% 11,1% 13,5% 20,4% 20,7% 

50854 11,3% 13,4% 11,1% 15,9% 19,2% 19,6% 

51014 6,8% 5,8% 7,4% 4,6% 3,7% 4,5% 

51036 7,4% 7,4% 7,5% 6,0% 4,1% 1,5% 

51195 6,7% 8,5% 7,0% 4,9% 1,7% 4,6% 

51162 7,4% 6,7% 7,5% 6,6% 2,5% 1,1% 

51324 6,9% 4,4% 6,7% 6,5% 9,9% 4,4% 

49119 7,9% 4,7% 5,9% 8,6% 2,7% 4,3% 

49248 7,0% 5,3% 7,2% 5,9% 3,1% 4,9% 

96 

Manuell / 

In-House 

MaxEnt 

QA1 


QA2 QA3 


QA1 QA2 QA3 

13,0% 15,3% 8,4% 14,2% 8,1% 11,1% 7,1% 6,7% 

18,5% 18,9% 11,7% 12,4% 11,9% 17,7% 12,6% 22,5% 

5,6% 2,0% 8,7% 7,0% 9,9% 5,5% 4,0% 10,0% 

18,7% 20,5% 12,0% 12,7% 10,7% 15,1% 17,4% 25,9% 

19,8% 20,4% 12,6% 14,7% 12,5% 13,8% 12,2% 20,6% 

2,5% 1,6% 6,2% 5,3% 7,9% 2,3% 0,0% 1,3% 

3,6% 5,4% 7,0% 7,3% 7,0% 6,9% 0,0% 2,2% 

3,1% 4,5% 6,0% 8,7% 6,7% 4,0% 1,1% 1,8% 

4,5% 4,1% 6,9% 6,4% 6,6% 7,2% 0,0% 2,2% 

3,2% 3,4% 6,2% 3,5% 5,8% 3,9% 2,6% 0,8% 

2,2% 1,3% 7,8% 3,6% 6,5% 6,6% 1,0% 1,2% 

5,1% 2,5% 6,5% 4,3% 6,5% 5,9% 42,0% 5,0%

C. Massfinder II 

Die Hauptseite von Massfinder II ist in Abb. C.1 zu sehen. Der obere Bereich enthält das ESI- 

MS-Spektrum und der untere Bereich enthält die Maximum-Entropie-Entfaltung des Spektrums. 

Die Peakserien werden im ESI-Spektrum vom Programm durch farbige Linien markiert. 

Dabei entspricht jede Farbe einer anderen Masse. Auf dieser Seite besteht die Möglichkeit, 

das Spektrum auf vorhandene Massen zu analysieren. Hierzu kann man sich die von MaxEnt 

berechneten Massen als Linien-Peakserien oder Isotopenverteilte-Peakserien anzeigen lassen 

und verifizieren, ob diese auch tatsächlich im Spektrum vorkommen oder nicht. Des Weiteren 

hat man hier die Möglichkeiten, das Spektrum zu Glätten, die Basislinie abzuziehen, Peaks für 

die Quantifizierung zu selektieren usw. 

Abb. C.1: Hauptseite von Massfinder II. 

Die nächste Seite (vgl. Abb. C.2) ist für die qualitative Auswertung konzipiert. Hier werden 

für eine Masse automatisch die wahrscheinlichsten Modifikationen aus einer gegebenen Modifikationsliste 

gefunden. Bei der Suchmethode kann zwischen direkter Suche und genetischem 

Algorithmus gewählt werden. 

97

Auf die Abbildung der dritten Seite wird verzichtet. Sie enthält eine Gesamtübersicht aller 

Massen, derer Strukturen und derer Quantitäten. Der Report kann für die weitere Protokollierung 

im ASCII-Format exportiert werden. 

Die letzte Seite ist für die Bestimmung der Hüllkurve zuständig (vgl. Abb. C.3). Für jede 

Masse kann hier die Hüllkurve im Diagramm dargestellt werden. Ein Algorithmus filtert im 

Hintergrund automatisch diejenigen Peaks heraus, welche wahrscheinlich Ausreißer sind 

(blaue Kreise). Das Fitting erfolgt dann auf die übrig gebliebenen (roten) Punkte. Die angepasste 

Hüllkurve ist rot dargestellt. Die Basisfunktionen der Hüllkurve sind in grau dargestellt. 

Um die Güte des Fittings zu beurteilen, werden von allen Parametern die Vertrauensintervalle 

sowie der R² Wert angegeben. Sollte ein Fitting misslingen, besteht die Möglichkeit, 

die Startparameter manuell festzulegen und durch Drücken von „Find & Update“ das Fitting 

erneut zu starten. Beim Drücken des Knopfes „Autofit & Update“ hingegen wird versucht 

die besten Startparameter automatisch zu ermitteln. Sollte die Ursache eines schlechten Fittings 

nicht an den Startparametern liegen, sondern an der Anzahl verwendeter Basisfunktionen, 

so kann diese angepasst werden. Standardmäßig werden zwei Basisfunktionen verwendet. 

Die Anzahl kann jedoch zwischen 1 und 4 variiert werden. Sobald das Fitting ein akzep- 

98 

Abb. C.2: Zuweisung von Strukturen.

tables Resultat hat, kann dies dem Programm durch Drücken des Knopfes „Model accepted“ 

mitgeteilt werden. Die Hüllkurve der Peakserie wird daraufhin im Spektrum aktualisiert. 

Abb. C.3: Fitting der Hüllkurve. 

99

100

Literaturverzeichnis 

ÄrzteZeitung Herceptin bessert Chancen bei frühem Brustkrebs, Ärzte Zeitung, 

03.06.2005 

Budzikiewicz92 Massenspektrometrie – Eine Einführung, Herbert Budzikiewicz, 3. 

erw. Aufl., Weinheim / New York / Basel / Cambridge, VCH, 1992 

Chang84 Chang S. Hsu, Anal. Chem. 1984, 56, 1356-1361 

Chapman92 John R. Chapman and Richard T. Gallagher, Organic Mass Spectrometry, 

Vol. 27, 195-203 (1992) 

Dobo01 Andras Dobo and Igor A. Kaltashov, Anal. Chem. 2001, 73, 4763- 

4773 

Dobo03 Anirban Mohimen, Andras Dobo, Joshua K. Hoerner, Igor A. 

Kltashov, Anal. Chem. 2003, 75, 4139-4147 

ELehmann05 Computergestützte Auswertung von Antikörper-Massenspektren, 

Eckhard Lehmann, Diplomarbeit Fachhochschule Weihenstephan, 

2005 

EncyclVol2 Encyclopedia of Immunology, 2nd edition, Vol Two, P.J. Delves, 

Academic Press, 1998, p. 1001 

Fenn89 J. B. Fenn, M. Mann, C. K. Meng, S. F. Wong, C. M. Whitehouse, 

Science (246), 1989, 64-71 

Fernandez04 Jorge Fernander-de-Cossio et al., Nucleic Acids Research, 2004, Vol. 

32, Web Server issue 

Gross04 Mass Spectrometry – A Textbook, Jürgen H. Gross, Springer Verlag 

Berlin Heidelberg, 2004 

Gross99 Skript Massenspektrometrie zum Kurs Spektroskopische Methoden, 

Dr. J. H. Gross, OCI, INF 270, Uni Heidelberg, 

http://www.archaeometrielabor.com/Bilder/pdf/Skript99.pdf, 

(Sep. 2005) 

101

Haver05 Prof. Tom O’Haver, Introduction to Signal Processing: Signals and 

noise, 

http://www.wam.umd.edu/~toh/spectrum/SignalsAndNoise.html, 

(Sep. 2005) 

IUPAC IUPAC Compendium of Chemical Terminology, 2nd Edition, 1997, 

http://www.iupac.org/goldbook/M03902.pdf (Sep. 2005) 

Jefferis05 Royston Jefferis, Biotechnol. Prog. 2005, 21, 11-16 

KinLev McKinley, S. and Levine, M., Cubic Spline Interpolation, 

http://online.redwoods.cc.ca.us/instruct/darnold/laproj/Fall98/SkyMeg 

/Proj.PDF (Sep. 2005) 

Klein91 Immunologie, Jan Klein, 1. Aufl., Weinheim / New York / Basel / 

Cambridge, VCH, 1991 

Lehmann96 Massenspektrometrie in der Biochemie, Wolf D. Lehmann, Heidelberg 

/ Berlin / Oxford, Spektrum Akademischer Verlag, 1996 

Lourakis05 Manolis Lourakis, Levenberq-Marquardt non-linear least squares algorithms 

in C/C++, 

http://www.ics.forth.gr/~lourakis/levmar/ (Sep. 2005) 

Madsen04 K. Madsen, H.B. Nielsen, O. Tingleff, Technical University of Denmark, 

Lecture Notes, April 2004, 

http://www.imm.dtu.dk/courses/02611/nllsq.pdf (Sep. 2005) 

Motulsky Harvey Motulsky and Arthur Christopoulos, Fitting Models to Data 

Using Linear and Nonlinear Regression, 

http://www.curvefit.com/manuals/Prism4/RegressionBook.pdf 

(Sep. 2005) 

�R Numerical Recipes in C, 2nd edition, William H. Press, Saul A. Teukolsky, 

William T. Vetterling, Brian P. Flannery, Cambridge University 

Press, 2002 

Raju03 Glycosylation Variations with Expression Systems, T. Shantha Raju, 

BioProcess International, April 2003 

102

Reinhold92 Bruce B. Reinhold and Vernon N. Reinhold, J. Am. Soc. Mass Spectrom. 

1992, 3, 207-215 

Rockwood95 Alan L. Rockwood, Steven L. Van Orden, and Richard D. Smith, 

Anal. Chem. 1995, 67, 2699-2704 

Šamalikova03 Maria Šamalikova and Rita Grandori, Journal of Mass Spectrometry, 

2003, 38, 941-947 

SavGol64 Abraham Savitzky and Marcel J. E. Golay, Anal. Chem. Vol 36 No. 8 

July 1964, pp. 1627 

Schmieder97 Peter Schmieder et al., J. of Magnetic Resonance 1997, 125, 332-339 

Senko95 M. W. Senko et al, J. Am. Soc. Mass Spectrom. 1995, 6, 229-233 

Stern Brustkrebs – Eine neue Ära, Stern, 02.06.2005 

Stryer02 Jeremy M. Berg, John L. Tymoczko, Lubert Stryer, Biochemistry, 

Fifth Edition, W. H. Freeman and Company New York, 2002 

TopHat Serra Jean, Courses on Mathematical Morphology, 

http://cmm.ensmp.fr/~serra/cours/index.htm (Sep. 2005) 

Voet&Voet92 Daniel Voet, Judith G. Voet, Biochemie, VCH Verlagsgesellschaft 

mbH, Weinheim, 1992 

Yergey83 James A. Yergey, Int. J. Mass Spectrometry and Ion Physics, 1983, 52, 

337-349 

103

Quantitative Analyse von Protein-Massenspektren

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?