22.12.2012 Aufrufe

Quantitative Analyse von Protein-Massenspektren

Quantitative Analyse von Protein-Massenspektren

Quantitative Analyse von Protein-Massenspektren

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

LUDWIG - MAXIMILIANS - UNIVERSITÄT<br />

TECHNISCHE UNIVERSITÄT MÜNCHEN<br />

Lehr- und Forschungseinheit<br />

Bioinformatik<br />

Diplomarbeit<br />

in Bioinformatik<br />

<strong>Quantitative</strong> <strong>Analyse</strong> <strong>von</strong><br />

<strong>Protein</strong>-<strong>Massenspektren</strong><br />

Alex Kohn<br />

Aufgabensteller: Prof. Dr. Volker Heun<br />

Betreuer: Dr. Alexander Manta<br />

Abgabedatum: 15.10.2005


Erklärung<br />

Ich versichere, dass ich diese Diplomarbeit selbständig verfasst und nur die angegebenen<br />

Quellen und Hilfsmittel benutzt habe.<br />

15. Oktober 2005 ____________________________<br />

Alex Kohn<br />

3


Danksagung<br />

Ich danke Prof. Dr. Volker Heun für seine Betreuung und Beratung während der Diplomarbeit<br />

ganz herzlich. Dr. Jörg Regula, Dr. Hans Koll, Dr. Engler Niklas und Achim Gärtner danke<br />

ich für die Bereitstellung empirischer Daten und für deren Ratschläge und Erklärungen. Silke<br />

Schneid-Müller und Mautz Björn danke ich für die manuelle Quantifizierung der synthetischen<br />

Daten. Ich möchte mich auch bei Eckhard Lehmann, für die Hilfestellung in der Einarbeitungsphase<br />

und für seine Denkanstöße, bedanken.<br />

Ganz besonderer Dank gilt Herrn Dr. Alexander Manta, für seine Betreuung und die aufschlussreichen<br />

Diskussionen, die ich mit ihm führen durfte.<br />

Danke auch an die gesamte TR-I Abteilung der Roche Diagnostics GmbH für die vielen informativen<br />

Gespräche und für die hervorragende Arbeitsatmosphäre.<br />

5


Zusammenfassung<br />

Die Elektrospray-Ionisations-Massenspektrometrie (ESI-MS) ist ein weit verbreitetes Werkzeug<br />

in der Analytik großer Biomoleküle. Im Fall <strong>von</strong> Antikörpern liegt der Schwerpunkt in<br />

der Untersuchung posttranslationaler Modifikationen. Das Glykosylierungsmuster eines Antikörpers<br />

entscheidet oft über dessen Funktion im Immunsystem [Jefferis05].<br />

Für die medizinische Therapeutik ist es essentiell, zwischen verschiedenen Antikörperspezies<br />

(Glykosylierungsvarianten) zu diskriminieren. Nur ein Bruchteil der <strong>von</strong> einer Zelle sezernierten<br />

Antikörperspezien erfüllen die Eigenschaft, das richtige Zielprotein zu binden. Der Rest<br />

hat andere Eigenschaften und kann sogar schädliche Nebenwirkungen zur Folge haben. Für<br />

die industrielle Antikörperproduktion ist es aus diesem Grund wichtig, zu wissen, in welchen<br />

Verhältnissen die relativen Anteile der jeweiligen Spezies stehen. Dieser Quantifizierungsprozess<br />

kann direkt mit ESI-MS-Spektren durchgeführt werden.<br />

Existierende Quantifizierungsmethoden sind häufig auf kleine Peptide spezialisiert und eignen<br />

sich nicht für die Quantifizierung großer Moleküle. Lösungen, mit denen man auch große<br />

Glykoproteine quantifizieren kann, sind häufig aufwendig zu bedienen und nicht robust genug<br />

beim Quantifizieren. Im Rahmen dieser Diplomarbeit werden neue Methoden für die Quantifizierung<br />

<strong>von</strong> ESI-MS-Spektren großer Biomoleküle vorgestellt, welche nicht die erwähnten<br />

Mängel besitzen.<br />

Abstract<br />

Electrospray ionization mass spectrometry (ESI-MS) is a very powerful tool for the analysis of<br />

large biomolecules such as antibodies. The main interest here lies in the posttranslational<br />

modifications of proteins. In the case of antibodies these glycations often determine key functions<br />

[Jefferis05]. In antibody therapeutics it is important to discriminate between those species<br />

(glycation variants) which have a positive effect on the curing of diseases and those<br />

which have negative side effects. For this reason one needs to determine the relative amount<br />

of each species in a probe. This quantification process can be done directly in ESI mass spectra.<br />

Unfortunately the existing quantification methods lack user-friendliness and robustness. In<br />

this publication, new methods for the quantification of ESI-MS spectra, which do not have<br />

these limitations, have been developed.<br />

7


Inhalt<br />

Seite<br />

Liste der Abkürzungen .......................................................................................................... 11<br />

1. Einleitung ............................................................................................................. 13<br />

1.1. Motivation ............................................................................................................. 13<br />

1.2. Ziel der Arbeit ....................................................................................................... 14<br />

2. Ausgangssituation ................................................................................................ 17<br />

2.1. ESI-Massenspektrometrie ...................................................................................... 17<br />

2.2. Glykoproteine ........................................................................................................ 20<br />

2.3. ESI-MS-Spektren <strong>von</strong> Glykoproteinen ................................................................. 24<br />

2.4. Bestehende Software ............................................................................................. 29<br />

2.5. Anforderungen ....................................................................................................... 32<br />

3. Konzepte ............................................................................................................... 35<br />

3.1. Lösungswege ......................................................................................................... 35<br />

3.2. Glättung ................................................................................................................. 38<br />

3.3. Basislinie ............................................................................................................... 42<br />

3.3.1. Von Tal zu Tal ....................................................................................................... 43<br />

3.3.2. Kubische Spline-Interpolation ............................................................................... 43<br />

3.3.3. Vierte Ableitung .................................................................................................... 45<br />

8


3.4. Isotopenverteilung ................................................................................................. 46<br />

3.5. Simulation der Peakverbreiterung ......................................................................... 52<br />

3.6. Curve-Fitting ......................................................................................................... 54<br />

3.6.1. Levenberg-Marquardt-Algorithmus ...................................................................... 56<br />

3.6.2. Güteparameter ....................................................................................................... 59<br />

3.6.3. Optimierung des Fittings ....................................................................................... 61<br />

3.6.4. Ausreißer ............................................................................................................... 63<br />

4. Technische Umsetzung ........................................................................................ 67<br />

5. Validierung .......................................................................................................... 71<br />

5.1. Validierung des Hüllkurven-Fittings ..................................................................... 71<br />

5.2. Validierung der Quantifizierungspipeline ............................................................. 74<br />

5.3. Experimentelle Resultate ....................................................................................... 83<br />

6. Zusammenfassung und Ausblick ....................................................................... 85<br />

Anhang ............................................................................................................................... 87<br />

A. Quantifizierungsergebnisse synthetischer Spektren .............................................. 87<br />

B. Quantifizierungsergebnisse empirischer Spektren ................................................ 92<br />

C. Massfinder II.......................................................................................................... 97<br />

Literaturverzeichnis ............................................................................................................. 101<br />

9


Liste der Abkürzungen<br />

Ara L-Arabinose<br />

amu atoms per mass unit<br />

D Dalton, 1D=1.665402*10 -27 kg<br />

DLL Dynamic Link Library<br />

DOF Degree of Freedom<br />

ESI Elektrospray Ionisation<br />

FAB Fast Atom Bombardment<br />

FFT Fast Fourier Transformation<br />

Fuc L-Fukose<br />

FWHM Full Width at Half Maximum<br />

Gal D-Galaktose<br />

GalNAc N-Acetyl-D-Galaktosamin<br />

Glc D-Glukose<br />

GlcNAc N-Acetyl-D-Glukosamin<br />

GUI Graphical User Interface<br />

k Kilo<br />

log, ln natürlicher Logarithmus<br />

LM Levenberg-Marquardt<br />

MALDI Matrix-Assisted Laser Desorption/Ionization<br />

Man D-Mannose<br />

MS Massenspektrometrie<br />

MF Massfinder<br />

NANA N-Acetylneuraminsäure bzw. Sialinsäure<br />

SVD Singular Value Decomposition / Eigenwertzerlegung<br />

V Volt<br />

eV Elektronen-Volt<br />

Xyl D-Xylose<br />

11


1. Einleitung<br />

Die Massenspektrometrie (MS) ist ein sehr bedeutendes Werkzeug in der Analytik organischer<br />

Verbindungen. Sie findet Anwendung in der Substanzanalyse <strong>von</strong> Gemischen, in der<br />

Sequenzierung <strong>von</strong> Biomolekülen, in der Qualitätskontrolle <strong>von</strong> Medikamenten und vielem<br />

mehr. Es gibt eine Vielzahl <strong>von</strong> Geräteklassen für die MS, wobei die Elektrospray-<br />

Ionisations-Massenspektrometrie (ESI-MS) der wichtigste Vertreter ist. Besonders interessant<br />

ist die MS für die Analytik großer Moleküle wie etwa Antikörper, da sie es ermöglicht, die<br />

Moleküle als Ganzes zu untersuchen. Somit ist eine Fragmentierung der <strong>Protein</strong>e in kleine<br />

Peptide nicht mehr notwendig, was weitere Fehlerquellen ausschließt, Kosten reduziert und<br />

Zeit bei dem <strong>Analyse</strong>prozess einspart.<br />

1.1. Motivation<br />

<strong>Protein</strong>e werden häufig durch Glykosylierung posttranslational modifiziert. Die Glykosylierungsarten<br />

eines <strong>Protein</strong>s üben einen großen Einfluss auf deren Funktion aus. Besonders gut<br />

charakterisiert ist dieser Sachverhalt bei Antikörpern: Hier entscheiden Glykosylierungen über<br />

die Aktivierung <strong>von</strong> Effektor-Mechanismen des adaptiven Immunsystems [Jefferis05]. Eine<br />

Zelle produziert i.d.R. nicht eine Glykovariante eines Antikörpers, sondern eine Vielzahl verschiedener<br />

Varianten (sog. Mikroheterogenität) [Raju03]. Dies ist einerseits eine wünschenswerte<br />

Eigenschaft, weil dadurch die Flexibilität des Immunsystems gesteigert wird. Andererseits<br />

ist dies für die medizinische Anwendung <strong>von</strong> Antikörpern jedoch ungünstig, weil oft nur<br />

wenige Glykovarianten eines Antikörpers die gewünschte therapeutische Wirkung entfalten.<br />

Die Herstellung monoklonaler Antikörper (eine Glykovariante) ist deshalb eminent. Regelmäßige<br />

Qualitätskontrollen der pharmazeutischen Produktion sind wichtig, um sicher zu stellen,<br />

dass keine Verunreinigungen durch fremde Glykoformen vorhanden sind. Übersteigen z.B.<br />

bestimmte Glykoformen eines <strong>Protein</strong>s einen gewissen Konzentrationsanteil, können schädliche<br />

Nebenwirkungen für den Patienten auftreten.<br />

Die Probenanalyse lässt sich mit der ESI-MS tätigen. Die gewonnenen Spektren enthalten Informationen<br />

über die in der Probe vorhandenen Massen und deren Intensitäten. Die Bestimmung<br />

der Massen ist mit Hilfe <strong>von</strong> Entfaltungsalgorithmen wie z.B. dem „Maximum-<br />

Entropie“-Algorithmus (MaxEnt) möglich [Reinhold92]. Der MaxEnt-Entfaltungsprozess<br />

führt eine auf der Entropie basierten Rekonstruktion des Spektrums durch. Als Ergebnis erhält<br />

man eine Liste mit den im Spektrum vorhandenen Massen und deren wahrscheinlichen Quantitäten.<br />

Ausgehend <strong>von</strong> der MaxEnt-Massenliste und der Referenzmasse des untersuchten <strong>Protein</strong>s,<br />

können dessen Zuckermodifikationen ermittelt werden. Die Schwierigkeit hierbei besteht<br />

im Auffinden der richtigen Kombination, denn es gibt eine Vielzahl an Glykoformen und<br />

13


somit viele Kombinationen, die auf ihre Richtigkeit hin überprüft werden müssen. Der MaxEnt-Algorithmus<br />

liefert zwar Informationen über die wahrscheinlichen Quantitäten der ermittelten<br />

Massen, diese weisen aber eine Nichtlinearität auf [Reinhold92], weshalb die Ergebnisse<br />

in der Praxis nur <strong>von</strong> wenigen Laboranten herangezogen werden. Bei Verwendung der<br />

so ermittelten Massenverhältnisse kann man sich nie über die Größe der Nichtlinearität bzw.<br />

des Fehlers sicher sein. In Folge dessen muss man für die zuverlässige Bestimmung der Quantitäten<br />

andere Wege einschlagen.<br />

Das Bestimmen der richtigen Quantitäten ist bei Spektren großer Biomoleküle keine triviale<br />

Aufgabe: Das Massenspektrum ist eine Überlagerung mehrerer Peakserien. Dadurch ist die<br />

Basislinie nach oben verschoben, einzelne Peaks sind nicht mehr sichtbar, Peakhöhen und<br />

Formen werden durch Summierung mehrerer Peaks verfälscht. Die Peaks verlieren durch<br />

Überlagerung die Gauß-Form, sie bekommen Schultern, Sättel, etc. All diese Punkte erschweren<br />

eine Quantifizierung erheblich.<br />

Bei der Quantifizierung per Hand ist die Reproduzierbarkeit nur bei „erfahrenen“ Laboranten<br />

gewährleistet. Die Bewertungsergebnisse „unerfahrener“ Laboranten weisen eine große Streuung<br />

auf. Der Hauptgrund hierfür ist in der Tatsache begründet, dass bei der manuellen Messung<br />

nur wenige Peaks als Berechnungsgrundlage dienen. Weil Peaks durch andere verfälscht<br />

sein können, kann es bei ungünstiger Peakauswahl zur Berechnung falscher Massenverhältnisse<br />

kommen. Solche Fälle können z.B. auftreten, wenn die Peaks durch andere Massen wie<br />

z.B. Addukte überlagert werden. Addukte sind Zusammenschlüsse zwischen in der Lösung<br />

befindlichen Ionen und Analyten.<br />

Auf dem Markt existieren Lösungen für die Quantifizierung <strong>von</strong> ESI-MS-Spektren. Jedoch<br />

sind diese Softwareprodukte meistens auf die Quantifizierung kleiner Peptide spezialisiert.<br />

Große Biomoleküle wie Antikörper lassen sich damit nur bedingt quantifizieren. Um die<br />

Quantitäten der Analyten korrekt zu bestimmen, ist deshalb die Entwicklung neuer Verfahren<br />

notwendig, welche zuverlässig, robust und reproduzierbar quantifizieren.<br />

1.2. Ziel der Arbeit<br />

Das Ziel der Arbeit ist es, Methoden für die Quantifizierung <strong>von</strong> ESI-MS-<strong>Protein</strong>spektren zu<br />

entwickeln. Die entwickelten Methoden werden in die bereits bestehende Softwarelösung<br />

Massfinder (MF) eingebaut. MF I wurde im Rahmen einer Diplomarbeit an der FH Weihenstephan<br />

entwickelt [ELehman05] und ist für die qualitative <strong>Analyse</strong> <strong>von</strong> ESI-MS-Spektren<br />

konzipiert worden. Durch die Einbindung in das bestehende Programm soll ein optimaler Arbeitsablauf<br />

zwischen qualitativer und quantitativer <strong>Analyse</strong> der Spektren erreicht werden.<br />

14


Damit die Messung der Quantitäten möglichst unabhängig vom jeweiligen Benutzer ist, soll<br />

ein weitestgehend automatisiertes Quantifizierungsverfahren entwickelt werden. Dabei soll<br />

die Automatisierung mindestens die gleiche Genauigkeit haben wie die des „erfahrenen“ Laboranten.<br />

Um das zu bewerkstelligen muss das Problem der Peaküberlappung und die damit<br />

verbundene Verfälschung der Signalintensität gelöst werden.<br />

Die Bestimmung der Güte der entwickelten Methoden ist bei empirischen Daten nicht ohne<br />

weiteres möglich. Deswegen wird am Ende der Arbeit eine Evaluierung anhand <strong>von</strong> Monte-<br />

Carlo-Simulationen vollzogen. Es werden künstliche Daten erzeugt und mit Teilen des Programms<br />

bzw. mit der kompletten Prozesspipeline ausgewertet. Zusätzlich werden auch andere<br />

gängige Methoden der Quantifizierung in die Evaluierung mit einbezogen. Dadurch ist ein<br />

Vergleich der Verfahren untereinander möglich.<br />

Mit der Weiterentwicklung <strong>von</strong> Massfinder wird eine robuste und vielseitig anwendbare Plattform<br />

für die Quantifizierung geschaffen, welche nicht die Mängel anderer Lösungen aufweist.<br />

15


2. Ausgangssituation<br />

Antikörper sind Glykoproteine, die für die Immunabwehr des Organismus <strong>von</strong> zentraler Bedeutung<br />

sind. Folglich sind sie auch für die Pharmaforschung <strong>von</strong> großem Interesse, schließlich<br />

können diese, falls richtig eingesetzt, als Therapeutika verwendet werden. Die Analytik<br />

<strong>von</strong> Glykoproteinen bzw. Antikörpern ist aufgrund der Anzahl möglicher Glykoformen sehr<br />

komplex. Um diese Komplexität zu minimieren, werden häufig Oligosaccharid und <strong>Protein</strong><br />

separat analysiert. Dies hat allerdings den Nachteil, dass die Positionsinformation verloren<br />

geht. Für die Charakterisierung <strong>von</strong> einfach glykosylierten Antikörpern eignen sich Massenspektrometer<br />

besonders gut. Zum einen können mit geringsten Probenmengen verlässliche<br />

Daten geliefert werden und zum anderen kann das Glykoprotein als Ganzes analysiert werden.<br />

Für die Auswertung der Daten bedarf es leistungsfähiger Software, welche in der Lage ist, die<br />

relevanten Informationen für den Biologen herauszugreifen.<br />

Im Folgenden werden die technischen Grundlagen im Hinblick auf die Massenspektrometrie<br />

vermittelt. Des Weiteren werden einige biologische Fakten über Glykoproteine, im speziellen<br />

Antikörper, vermittelt. Anschließend wird ein Überblick über vorhandene Softwareprodukte<br />

gegeben und gezeigt, warum diese allein für eine befriedigende Lösung der hiesigen Thematik<br />

nicht ausreichend sind. Am Ende dieses Kapitels werden die Anforderungen beschrieben,<br />

welchen eine neue Lösung gerecht werden muss.<br />

2.1. ESI-Massenspektrometrie<br />

Die Massenspektrometrie hat in den letzten Jahrzehnten stetig an Bedeutung gewonnen und<br />

ist heutzutage kaum mehr aus der Analytik wegzudenken. Historisch hatte die MS ihre Hauptanwendung<br />

in der Untersuchung <strong>von</strong> physikalischen und chemischen Prozessen v. a. in der<br />

Ölindustrie. Durch den raschen technischen Fortschritt wurde es bald möglich, auch biochemische<br />

<strong>Analyse</strong>n hochmolekularer Substanzen durchzuführen. Zunächst waren es Lipide mit<br />

bis zu 1 kD, heutzutage kann man dank moderner Ionisierungsmethoden komplexe <strong>Protein</strong>e<br />

mit bis zu 250 kD untersuchen [Lehmann96].<br />

Mit Hilfe der MS kann man u.a.:<br />

• bekannte Substanzen in einem Gemisch identifizieren;<br />

• eine quantitative <strong>Analyse</strong> bekannter Substanzen eines Gemisches durchführen;<br />

• die Struktur unbekannter Verbindungen analysieren;<br />

• Biomoleküle strukturell charakterisieren;<br />

• <strong>Protein</strong>e und Peptide sequenzieren.<br />

17


Ein Massenspektrometer besteht aus einer Ionenquelle, einem Massenanalysator und einem<br />

Detektor (vgl. Abb. 2.1.1). Organische oder anorganische Moleküle werden ionisiert, um anschließend<br />

nach ihrem Verhältnis <strong>von</strong> Masse zu Ladung (m/z) getrennt zu werden. Ein Detektor<br />

misst die Treffer (Intensität) zu jedem m/z Wert. Für die Ionisierung existieren verschiedene<br />

Methoden. Je nach Wahl erhält man niedrig bis hoch ionisierte Moleküle. Bei den Massenanalysatoren<br />

existiert ebenfalls eine große Zahl an Varianten. [Gross04]<br />

Als Resultat der Messung erhält man ein Spektrum, welches einen zweidimensionalen Abdruck<br />

der Intensität gegen die m/z Werte enthält.<br />

Die Elektrospray-Ionisation ist wegen ihrer besonderen Eigenschaften häufig das Verfahren<br />

der Wahl, wenn es um die Ionisierung <strong>von</strong> <strong>Protein</strong>en geht. Das Elektrospray-<br />

Ionisierungsverfahren wurde <strong>von</strong> John B. Fenn et al. entwickelt und 1989 publiziert [Fenn89].<br />

Er wurde 2002 dafür mit dem Nobelpreis für Chemie ausgezeichnet. Beim ESI-Verfahren<br />

(vgl. Abb. 2.1.2) wird die Lösung, welche die Analyten enthält, durch eine dünne Kapillare<br />

versprüht. Die zwischen der Kapillarspitze und der Gegenelektrode anliegende Potentialdifferenz<br />

<strong>von</strong> bis zu einigen kV bewirkt, dass die versprühten Tröpfchen beim Austritt aus der Kapillare<br />

geladen werden. Durch die nun folgende Evaporation der Tröpfchen, verringert sich<br />

das Volumen und die Ladungsdichte steigt. Sobald die Coulomb-Abstoßung der Ladungen eine<br />

größere Kraft ausübt als die Oberflächenspannung des Tröpfchens, zerfällt es in noch kleinere<br />

Tröpfchen. Dieser kritische Punkt wird auch als Rayleigh-Limit bezeichnet. Der Verlauf<br />

wiederholt sich so lange, bis nur noch die Analyt-Ionen bzw. die hoch solvatisierten Analyt-<br />

Ionen übrig bleiben. Ein Teil der Ionen gelangt durch einen Spalt in der Gegenelektrode zum<br />

Analysator, in dem sie nach dem Verhältnis <strong>von</strong> Masse zu Ladung (m/z) getrennt werden. Ob<br />

die Ionen negativ oder positiv geladen werden, hängt <strong>von</strong> ihren chemischen Eigenschaften und<br />

der Polarität der anliegenden Potentialdifferenz ab.<br />

18<br />

Abb. 2.1.1: Schematischer<br />

Aufbau eines Massenspektrometers.<br />

Nach<br />

[Gross04 S.4]<br />

Abb. 2.1.2: Die Tröpfchen werden<br />

beim Austritt aus der Kapillare aufgrund<br />

der hohen Potentialdifferenz<br />

elektrisch geladen. Anschließend<br />

findet eine Coulomb-Explosion der<br />

Tröpfchen statt, so dass sie immer<br />

kleiner werden, bis nur noch die<br />

Analyt-Ionen in der Gasphase übrig<br />

bleiben. Ein Teil der so gebildeten<br />

Ionen gelangen durch einen Spalt in<br />

der Gegenelektrode zum Analysator.<br />

Nach [Lehmann96 S.100]


Die Frequenz, mit der sich bestimmte Ladungszustände bilden, folgt einer statistischen Verteilung.<br />

Die Form der Ladungsverteilung wird durch die Masse und die Konformation des Moleküls<br />

bedingt. Hierbei sei erwähnt, dass jeder Ladungszustand eines Moleküls zwischen minimalem<br />

und maximalem Ladungszustand besetzt wird, d.h. es gibt keine Lücken in der Ladungsverteilung<br />

(vgl. dazu Abb. 2.3.5). [Lehmann96, Samalikova03]<br />

Eine besondere Eigenschaft <strong>von</strong> ESI ist, dass es ein schonendes Verfahren ist, d.h. es kommt<br />

nur geringfügig zur Fragmentierung der Analyten, was eine exakte Molekulargewichtsbestimmung<br />

ermöglicht. Als zweites Merkmal ist die Detektion großer Massen hervorzuheben<br />

(bis 250 kD). Dies wird durch den Umstand ermöglicht, dass hoch geladene (bzw. mehrfach<br />

geladene) Molekülionen, d.h. hohe z-Werte, bei entsprechend niedrigen m/z-Werten im<br />

Spektrum abgebildet werden.<br />

Diese zwei Merkmale sind bei anderen populären Ionisierungsverfahren wie etwa „Matrix-<br />

Assisted Laser Desorption/Ionization“ (MALDI) oder „Fast Atom Bombardment“ (FAB) nicht<br />

anzutreffen. Bei MALDI wird ein gepulster Laser zur Ionisierung der auf einer Metalloberfläche<br />

angebrachten Analyten verwendet. Im Gegensatz zu ESI entstehen hierbei meistens nur<br />

einfach geladene Ionen, ganz selten auch zweifach geladene. Des Weiteren ist bauartbedingt<br />

die Probe nur schwer vor den zerstörenden Eigenschaften des Lasers zu schützen, und es<br />

kommt dadurch eher zur Fragmentierung der Analyten. [Lehmann96]<br />

Bei FAB werden die Analyten in einer organischen Matrix (i.d.R. bestehend aus Glycerol und<br />

3-nitrobenzyl Alkohol) gelöst, so dass diese als Ionen vorliegen. Die Matrix wird anschließend<br />

mit einem Primärionenstrahl <strong>von</strong> etwa 10-15keV kinetischer Energie beschossen. Aufgrund<br />

der erzeugten Stoßkaskade werden die Analyt-Ionen in die Gasphase überführt. Die Art<br />

der erzeugten Spektren hängt stark vom verwendeten Lösungsmittel und <strong>von</strong> der Zusammensetzung<br />

der Matrix ab. FAB ist wie auch MALDI kein wirklich schonendes Verfahren. Bei<br />

Massen mit einem Molekulargewicht ab einigen kD kommt es außerdem zur Fragmentierung<br />

der Analyten. Somit eignet es sich nicht für die Untersuchung großer Glykoproteine. [Budzikiewicz92]<br />

Die Spektren, welche in dieser Arbeit betrachtet werden, stammen alle <strong>von</strong> einem Quadrupol-<br />

Flugzeit-Analysator. Ein Quadrupol besteht aus vier Metallstäben, welche parallel angeordnet<br />

sind. Die Ionen, welche durch das Quadrupol fliegen, können durch Anlegen geeigneter Spannungen<br />

an den Metallstäben gefiltert werden. Man kann somit bestimmen, welcher Massenbereich<br />

durchgelassen wird. Anschließend treten die Ionen in ein Flugrohr ein, in dem sie durch<br />

gepulstes Anlegen <strong>von</strong> Hochspannung auf das gleiche kinetische Energieniveau gehoben werden.<br />

Dadurch erreichen leichte Ionen vor den schweren Ionen den Detektor am Ende des Flugrohrs.<br />

Um die Flugzeit messen zu können, werden die Ionen gepulst, d.h. sie werden paketweise<br />

zum Detektor geschickt. Aus den Flugzeiten können die m/z-Werte berechnet werden<br />

und man erhält das m/z-Spektrum. [Budzikiewicz92, Gross04]<br />

19


2.2. Glykoproteine<br />

Hierbei handelt es sich um eine Gruppe komplexer Makromoleküle, welche in nahezu allen<br />

Lebensformen vorkommen. Den größten Anteil daran haben posttranslational modifizierte<br />

Membranproteine sowie <strong>Protein</strong>e, welche in der extrazellulären Matrix vorkommen. Diese<br />

üben einen großen Einfluss auf die Funktion und Entwicklung <strong>von</strong> Zellen aus. Besonders<br />

wichtige Vertreter der Glykoproteine lassen sich in der Immunabwehr <strong>von</strong> Säugetieren finden,<br />

nämlich Immunglobuline und Immunglobulin-Rezeptoren.<br />

Glykoproteine bestehen aus dem kovalenten Zusammenschluss eines <strong>Protein</strong>s und mehrerer<br />

Kohlenhydrate (vgl. Abb. 2.2.1). Die Bindungstypen lassen sich aufteilen in N-glykosidische<br />

und O-glykosidische Bindungen. Bei der ersten Klasse erfolgt die Bindung an die Aminogruppe<br />

<strong>von</strong> Asparagin, bei der zweiten an die Hydroxygruppe <strong>von</strong> Threonin oder Serin. Oligosaccharid-Seitenketten<br />

<strong>von</strong> Membran-Glykoproteinen sind nur aus den folgenden 9 Monosaccharid<br />

Grundbausteinen zusammengesetzt, obwohl weit mehr Monosaccharide existieren:<br />

Glukose (Glc), Galaktose (Gal), Mannose (Man), Fucose (Fuc), Arabinose (Ara), Xylose<br />

(Xyl), N-Acetyl-D-Glukosamin (GlcNAc), N-Acetyl-D-Galaktosamin (GalNAc) und Sialinsäure<br />

(NANA). [Klein91]<br />

Antikörper bestehen aus zwei identischen Kettenpaaren, mit je einer leichten Kette (ca. 25kD)<br />

und einer schweren Kette (50kD bis 80kD). Die schwere und die leichte Kette sind durch eine<br />

Disulfidbrücke verbunden. Die zwei schweren Ketten sind in der Gelenkregion durch zwei<br />

Disulfidbrücken miteinander verbunden (vgl. Abb. 2.2.3 a). Charakteristisch für die Antikörper<br />

ist, dass sie über einen konstanten Bereich (CL und CH) und einen variablen Bereich (VL<br />

und VH) verfügen. Der konstante Bereich ist allen Antikörpern gemeinsam, der variable Bereich<br />

– die Antigenbindestelle – zeichnet sich durch eine hohe Heterogenität innerhalb der<br />

Antikörperpopulationen aus. Diese Teile haben zwei wesentliche Aufgaben:<br />

(1) Antigen-Bindung: Moleküle des Antigens (z.B. Pathogene) werden gebunden, wodurch<br />

eine Immunantwort ausgelöst wird.<br />

(2) Wechselwirkung mit Effektoren: Andere Zellen und Moleküle, welche das Antigen<br />

zerstören, werden mobilisiert.<br />

20<br />

Abb. 2.2.1: Zwei Klassen <strong>von</strong><br />

Oligosaccharid-Bindungen an<br />

<strong>Protein</strong>en. Die Bindungsstelle<br />

zwischen Zucker und <strong>Protein</strong><br />

ist durch einen Kreis symbolisiert.<br />

Links sieht man eine<br />

N-glykosidische Bindung und<br />

rechts eine O-glykosidische.<br />

Nach [Klein91 S.139]


Die Immunglobuline lassen sich in fünf Klassen unterteilen, wobei jede Klasse eine eigene<br />

physiologische Aufgabe besitzt: IgM, IgD, IgG, IgA und IgE. IgM befindet sich im Blut und<br />

ist der erste Antikörper, welcher sofort nach Kontakt mit einem Antigen sezerniert wird. Seine<br />

Spezialisierung ist das Binden <strong>von</strong> ins Blut eingedrungenen Mikroorganismen. Die häufigste<br />

Immunglobulin-Klasse (und die interessanteste für die Pharmaforschung) ist IgG, welche im<br />

Blut und interstitieller Flüssigkeit vorkommt. IgG wird in einer verzögerten Phase nach dem<br />

Auftreten <strong>von</strong> IgM gebildet. Von entscheidender Bedeutung ist IgG für die Immunität des Fetus,<br />

da IgG als einziges Immunglobulin die Plazenta-Barriere überwinden kann. IgA kommt<br />

hauptsächlich im Verdauungsapparat, Speichel, Schweiß und in Tränen vor. Seine Funktion<br />

besteht darin, Erregern die Anlagerung an das Epithel unmöglich zu machen. IgE ist für alle<br />

allergischen Reaktionen verantwortlich, außerdem schützt es vor Parasiten wie z.B. Würmern.<br />

Im Blut kommt es nur in sehr geringen Mengen vor. Ebenfalls im Blut und nur in geringen<br />

Mengen vorhanden ist IgD, dessen Funktion vergleichsweise unbekannt ist. [Voet&Voet92,<br />

Stryer02]<br />

Abb. 2.2.2: Zuckermodifikationen. Links befinden sich<br />

Beispiele für den komplexen Typ, rechts für den Mannose-reichen<br />

Typ. Unten ist eine O-glykosidische Bindung<br />

dargestellt. Bei den komplexen Typen kann man<br />

sehr schön die Kernregion sehen, welche allen Varianten<br />

zugrunde liegt: β – β1,4 – β1,4 – α1,6 – α1,3. Die<br />

N-verknüpfte komplexe Oligosaccharid-Struktur oben<br />

in der Mitte ist die größte Struktur, die je im menschlichen<br />

IgG gefunden wurde [Raju03].<br />

Nach [Klein91 S.140]<br />

Von IgG gibt es vier verschiedene Isotypen (IgG1, IgG2, IgG3, IgG4), die sich in der Anzahl<br />

interner Disulfidbindungen und in ihrer Effektor-Funktionalität unterscheiden, obwohl die Isotypen<br />

eine Sequenzhomologie <strong>von</strong> über 95 % aufweisen [Jefferis05]. IgGs tragen häufig Zu-<br />

21


ckermodifikationen, welche großen Einfluss auf ihre Funktion haben [Raju03]. Die <strong>von</strong> den<br />

Immunglobulinen O-glykosidisch gebundenen Kohlenhydrate sind variabel in ihrer Struktur,<br />

aber sehr klein (750D). Die N-glykosidisch gebundenen Oligosaccharide hingegen sind wesentlich<br />

größer (ca. 2700D) und können bis zu 15 verschiedene Monosaccharide enthalten.<br />

Bei letzterem unterscheidet man zwei Arten: Mannose-reich und komplex [Klein91].<br />

Ein bestimmtes Glykoprotein kann in verschiedenen Varianten auftreten, die sich in ein oder<br />

mehr Strukturmerkmalen der Glykosylierung unterscheiden [IUPAC]. Man bezeichnet diesen<br />

Sachverhalt als Mikroheterogenität. IgGs verfügen häufig über eine ausgeprägte Mikroheterogenität,<br />

d.h. die N-verknüpften Oligosaccharide sind sehr heterogen. Die Heterogenität<br />

herrscht nicht nur innerhalb einer Zelle, sondern auch über mehrere Zellen hinweg. Die Ursache<br />

liegt in der Variation des Expressionssystems, d.h. die Anzahl gebundener Zuckermoleküle<br />

variiert. Die Mikroheterogenität hat besonders starke Auswirkungen auf die industrielle<br />

Produktion <strong>von</strong> Antikörpern, da kleinste Variationen in der Herstellung zu unterschiedlichen<br />

Glykosylierungen rekombinanter IgGs führen. Problematisch wird dies durch die Tatsache,<br />

dass kleinste Veränderungen in der Glykosylierung die therapeutische Aktivität stark beeinflussen<br />

können [Raju03, Jefferis05]. Deswegen stellt sich bei der <strong>Analyse</strong> <strong>von</strong> Antikörper-<br />

<strong>Massenspektren</strong> häufig die Frage, welche Art und welche Mengen einzelner Spezies vorhanden<br />

sind.<br />

Antikörper verfügen in der Gelenkregion (Hinge) über eine konservierte Glykosylierungsstelle.<br />

Daneben besitzen die leichte und die schwere Kette in dem variablen Bereich noch einige<br />

nicht konservierte Glykosylierungsstellen. Je mehr solcher Stellen besetzt sind, desto mehr<br />

Glykosylierungskombinationen sind möglich. Um unerwünschte Nebenwirkungen bei der<br />

Therapie mit Antikörpern zu vermeiden, ist es wichtig, dass die Anzahl anormaler Glykosylierungen<br />

minimiert wird. Von den Gesundheitsbehörden gibt es strenge Grenzen, in denen das<br />

Glykosylierungsprofil liegen muss. In Folge dessen hat man vorzugsweise einfache Antikörper,<br />

die nur über eine Glykosylierungsstelle verfügen. [Jefferis05]<br />

Um die <strong>Analyse</strong> der Spektren zu vereinfachen, werden die Antikörper reduziert, so dass<br />

schwere und leichte Kette massengetrennt sind. Der Nutzen ist dabei, dass die leichte Kette,<br />

22<br />

a) b)<br />

Abb. 2.2.3:<br />

a) Schematischer<br />

Aufbau eines IgG<br />

Antikörpers<br />

b) Beispiel für ein<br />

an IgG gebundenes<br />

Oligosaccharid<br />

vom komplexen<br />

Typ. Der Kernbereich<br />

ist blau hinterlegt.<br />

Nach [EncyclVol2]


welche meistens über keine Glykosylierungen verfügt, als Referenzmasse verwendet werden<br />

kann. Überdies lassen sich die Glykosylierungsvarianten der schweren bzw. leichten Kette<br />

leichter bestimmen, da Variationen der jeweils anderen Kette nicht berücksichtigt werden<br />

müssen.<br />

Im Folgenden wird kurz erläutert, wie Antikörper für die medizinische Therapeutik hergestellt<br />

werden können.<br />

Bei der aktiven Immunisierung gegen ein Antigen werden eine Vielzahl an Antikörpern gebildet<br />

– so genannte polyklonale Antikörper –, welche das Antigen binden. Polyklonal heißt,<br />

dass die Antikörper sich nicht nur in den Glykosylierungen unterscheiden, sondern auch in der<br />

Aminosäuresequenz. Folglich sezerniert jeder B-Lymphozyt einen anderen Antikörper, es<br />

herrscht also eine große Heterogenität. Für die Medizin ist es jedoch <strong>von</strong> besonderem Interesse,<br />

monoklonale Antikörper in großen Mengen herzustellen, die ein bestimmtes Antigen binden.<br />

Monoklonale Antikörper besitzen die gleiche Aminosäuresequenz, unterscheiden sich jedoch<br />

an den Glykosylierungsstellen (Mikroheterogenität). Die Herstellung monoklonaler Antikörper<br />

ist nicht unproblematisch. Zum einen muss ein Lymphozyt gefunden werden, welcher<br />

Antikörper gegen das zu bindende Antigen produziert und zum anderen muss der Lymphozyt<br />

auch in vitro lebensfähig sein.<br />

Ein möglicher Lösungsweg ist folgender: Um Antikörper gegen ein Antigen X zu erhalten, injiziert<br />

man in die Milz einer Maus eine bestimmte Dosis des Antigen X. Nach erfolgreicher<br />

aktiver Immunisierung haben sich spezifische B-Lymphozyten gegen das injizierte Antigen<br />

gebildet. Im nächsten Schritt werden die Milzzellen und somit auch die aktivierten Lymphozyten<br />

der Maus entnommen. Es bleibt noch das Problem bestehen, dass normale B-<br />

Lymphozyten in vitro nicht lebensfähig sind. Krebsartige Zellen hingegen lassen sich in vitro<br />

vermehren, weil sie mit nur sehr wenigen Wachstumsfaktoren auskommen. Deswegen hybridisiert<br />

man die entnommenen B-Zellen mit krebsartigen Lymphozyten, den Myelomzellen,<br />

welche nur monoklonale Antikörper sezernieren. Die so entstehenden Klone (Hybridome)<br />

sind in vitro lebensfähig und können nun auf einem geeigneten Medium gezüchtet werden.<br />

Die <strong>von</strong> den Hybridomen sezernierten Antikörper werden anschließend in einem Screening-<br />

Verfahren auf ihre Funktionalität hin überprüft. Es findet also eine Klonauswahl bzw. Antikörperauswahl<br />

statt. In der Therapeutik hat man hierbei Interesse, möglichst effektive Antikörper<br />

zu finden, d.h. hohe Affinität für das zu bindende Antigen, geringe Mikroheterogenität<br />

und keine Wechselwirkung mit anderen Stoffen. Nach Auswahl geeigneter Antikörper müssen<br />

diese noch „humanisiert“ werden, da sonst im Menschen eine Immunantwort gegen die Mausantikörper<br />

stattfinden würde. Die Humanisierung eines Antikörpers beinhaltet den Austausch<br />

der konstanten Bereiche gegen humane Sequenzen. [Voet&Voet92]<br />

Ursprünglich wurden Antikörper in der Medizin v. a. zur passiven Impfung gegen Pathogene<br />

eingesetzt. Mittlerweile hat auch die Tumortherapie mit Antikörpern eine immer größer wer-<br />

23


dende Bedeutung erreicht. Aktuelles Beispiel ist Herceptin, welches gegen Brustkrebs erfolgreich<br />

eingesetzt wird [ÄrzteZeitung, Stern].<br />

2.3. ESI-MS-Spektren <strong>von</strong> Glykoproteinen<br />

Im Folgenden werden einige wichtige Eigenschaften <strong>von</strong> ESI-MS-Spektren erläutert. In Abb.<br />

2.3.1 ist ein Spektrum eines Antikörpers abgebildet, welches sieben IgG-Spezies enthält. Bei<br />

allen Spezies ist die leichte Kette identisch. Demzufolge fallen die Massen aller leichten Ketten<br />

im Spektrum zusammen, so dass sie als intensive Peaks zum Vorschein treten (in Abb.<br />

2.3.1 als A13 bis A19 gekennzeichnet). Die Spezies unterscheiden sich durch die Zuckermodifikationen<br />

an der schweren Kette, welche sich bei der Gelenkregion (vgl. Abb. 2.2.3 a) befinden.<br />

In Kap. 2.1 wurde erwähnt, dass ein Analyt während der Ionisierung mehrere Ladungszustände<br />

annimmt. Im Spektrum äußert sich dies darin, dass es für den Analyten nicht nur einen<br />

Peak gibt, sondern einen für jeden Ladungszustand. Zur Illustration dient die Spezies E (vgl.<br />

Abb. 2.3.1) mit der Masse m=50373D. Ein Blick auf das Spektrum zeigt, dass dieses Molekül<br />

Ladungszustände zwischen 26 und 56 einnimmt. Die Peakposition im Spektrum lässt sich mit<br />

Hilfe der Molekülmasse und des Ladungszustandes berechnen. Beispielhaft wird der m/z-Wert<br />

für den Ladungszustand z=37 berechnet:<br />

24<br />

Abb. 2.3.1: Spektrum eines reduzierten IgG-Antikörpers. Die Beschriftung über den Peaks repräsentiert jeweils<br />

einen Peak aus einer Serie. Dabei stehen die Buchstaben für die Masse (vgl. Legende) und die Zahlen für den Ladungszustand.<br />

Auf der y-Achse ist die normierte Intensität aufgetragen. Hinweis: Aus Platzgründen wurden nicht<br />

alle Peaks einer Serie beschriftet.<br />

m + zH 50373D<br />

+ 37 ⋅1,<br />

008D<br />

m / z = =<br />

= 1362,<br />

44D<br />

(2.3.1)<br />

z<br />

37


Analog lässt sich auf diese Weise für jeden Ladungszustand einer Masse die genaue Position<br />

im Spektrum bestimmen. Die Gesamtheit aller Peaks die zu einer Masse gehören bezeichnet<br />

man als Peakserie.<br />

Wenn man mit <strong>Massenspektren</strong> arbeitet, ist es wichtig, sich über einige grundlegende Dinge<br />

klar zu werden [Gross04]:<br />

• Ein Massenspektrometer trennt nach dem Verhältnis Masse zu Ladung (m/z).<br />

• Ein Peak im Spektrum setzt sich aus der Durchschnittsmasse (der häufigsten Isotopenkombination)<br />

und allen anderen möglichen Isotopenkombinationen des Moleküls<br />

zusammen.<br />

• Die Peakbreite wird durch die Isotopen bestimmt. Außerdem verursachen Geräteparameter<br />

wie Auflösung und Gerätetyp eine zusätzliche Verbreiterung.<br />

Tabelle 2.3.1: Liste der Isotopenhäufigkeit<br />

einiger für die Massenspektrometrie<br />

relevanten Elemente.<br />

[Gross99]<br />

25


Die Masse eines Atoms berechnet sich aus der Summe der Neutronen und Protonen. Isotopen<br />

sind Atome gleicher Protonenzahl, aber unterschiedlicher Neutronenzahl und dadurch auch<br />

unterschiedlicher Massenzahl.<br />

Als monoisotopisch bezeichnet man Elemente, welche nur ein stabiles Isotop haben, z.B. Natrium,<br />

das nur als 23 Na stabil ist. Polyisotopisch werden diejenigen Elemente genannt, welche<br />

mehrere stabile Isotope aufweisen. Die Isotope eines Elements kommen mit einer gewissen<br />

Wahrscheinlichkeit in der Natur vor (vgl. Tabelle 2.3.1). Brom zum Beispiel kommt als 79 Br<br />

(relative Häufigkeit 50,69 %) und 81 Br (relative Häufigkeit 49,31 %) vor. Für Br2 ergibt sich<br />

eine durchschnittliche Masse <strong>von</strong> 159,8g/mol wenn man die im Periodensystem angegebenen<br />

relativen Atommassen zur Berechnung heranzieht. Betrachtet man nun das Spektrum, so sieht<br />

man folgende Signale:<br />

26<br />

[ 79 Br2] + bei m/z 158<br />

[ 79 Br 81 Br] + und [ 81 Br 79 Br] + bei m/z 160<br />

[ 81 Br2] + bei m/z 162<br />

Für m/z=159,8 gibt es aber kein Signal [Budzikiewicz92]. Die Isotopenverteilung hat zur Folge,<br />

dass man in einem Massenspektrum für ein Molekül nicht einen Strich beobachtet, sondern<br />

mehrere, welche zusammen die Peakform determinieren. Zur Illustration wird die B-<br />

Kette <strong>von</strong> Rinderinsulin herangezogen. In Abb. 2.3.2 a) ist die theoretische Isotopenverteilung<br />

der B-Kette dargestellt. Zusätzlich ist in Abb. 2.3.2 b) das gemessene Spektrum einer Probe,<br />

welche die B-Kette enthält, dargestellt. Hier findet man im intensivsten Peak die berechnete<br />

Isotopenverteilung wieder. Daneben weißt die empirische Messung noch weitere Peaks auf,<br />

welche wahrscheinlich <strong>von</strong> anderen in der Probe vorhandenen Massen stammen.<br />

Abb. 2.3.2: Dargestellt ist die B-Kette <strong>von</strong> Rinderinsulin (C157H233N40O41S2)<br />

(a) Berechnetes Isotopenmuster<br />

(b) Gemessenes Spektrum<br />

[Budzikiewicz92 S.62]<br />

Die Peakbreite wird neben der Isotopenverteilung noch durch das ESI-MS-Gerät beeinflusst,<br />

d.h. die Massen, welche im Spektrum noch getrennt abgebildet werden können, hängen entscheidend<br />

<strong>von</strong> der Auflösung R des Geräts ab:


m<br />

R = (2.3.2)<br />

∆m<br />

Dabei ist m die Masse, die interessiert, und �m der Massenunterschied, der aufgelöst werden<br />

soll. Die Auflösung gibt an, wann zwei Massen sichtbar getrennt werden können (vgl. Abb.<br />

2.3.3). Dafür gibt es zwei verschiedene Definitionen, wobei sich beide auf die relative Peakhöhe<br />

stützen: zwei Massen sind getrennt, wenn das Tal zwischen beiden Peaks kleiner gleich<br />

10% der Signalhöhe ist. Seit der Einführung der Quadrupol-Massenanalysatoren wird immer<br />

häufiger die Halbwertsbreite (FWHM; Breite des Peaks bei 50% Höhe) als Maß genommen.<br />

Der Grund liegt zum einen an der schlechteren Auflösung des Geräts (10% wäre somit eine zu<br />

starke Grenze) und zum anderen an der starken Verbreitung dieser Geräte. Demnach sind zwei<br />

Peaks getrennt, wenn sie mindestens den FWHM-Wert des Detektors <strong>von</strong>einander entfernt<br />

sind (Rayleigh’sche Auflösungsgrenze). Letztere Definition der Auflösung wird auch in dieser<br />

Arbeit verwendet. [Gross04, Budzikiewicz92]<br />

Abb. 2.3.3: Geräte-Auflösung<br />

Oben: Definition der Auflösung bei 10% und 50% Talgrenze.<br />

[Gross04 S.96]<br />

Rechts: Theoretische Peakform der B-Kette <strong>von</strong> Rinderinsulin<br />

bei verschiedenen Auflösungen. Auf der x-Achse<br />

sind die m/z-Werte aufgetragen. Oben R=1000, Mitte<br />

R=5000 und unten R=10000. Man sieht wie mit steigender<br />

Auflösung die Peaks immer besser getrennt werden.<br />

Als Addukte bezeichnet man Massen, die durch Zusammenlagerung <strong>von</strong> im Lösungsmittel befindlichen<br />

Ionen mit dem Analyten entstehen. Bei Verwendung einer salzhaltigen Lösung entstehen<br />

Alkali-Addukte, d.h. es lagern sich n-fach viele Na + und K + an die Moleküle an. Ob<br />

und wie viele Ionen sich anlagern, hängt zum einen <strong>von</strong> der Struktur des Analyten ab und zum<br />

anderen <strong>von</strong> dem Gehalt an Salzen in der Lösung. Abhängig <strong>von</strong> der Masse des Moleküls und<br />

der Geräteauflösung kann man die Adduktsignale im Spektrum als eigenständige Peaks erkennen<br />

oder sie sind nur als Verbreiterung des Peaksockels angedeutet. Ein Beispiel für Adduktsignale<br />

kann man Abb. 2.3.4 entnehmen. Als weitere Folgen der Adduktbildung können<br />

Signale anderer Massen durch Adduktsignale überlagert werden, was eine Quantifizierung erschwert.<br />

27


Als Basislinie bezeichnet man denjenigen Signalanteil im Spektrum, welcher vom Gerät verursacht<br />

wird. Die Höhe der Basislinie hängt stark <strong>von</strong> den gewählten Geräteparametern ab. Im<br />

Falle <strong>von</strong> ESI-Spektren sind häufig schwache Addukt-Signale auch Mitverursacher der Basislinie.<br />

Von jeder gemessenen Masse können sich n-fach geladene Addukt-Varianten bilden.<br />

Hierbei treten v.a. die höher geladenen Varianten gar nicht mehr als echte Peaks in Erscheinung,<br />

weil sie aufgrund ihrer geringen Intensität im Spektrum untergehen. Vielmehr tragen all<br />

diese schwach intensiven Addukte in der Summe zu einer Erhebung der Basislinie bei (vgl.<br />

Abb. 2.3.5). Vor der quantitativen <strong>Analyse</strong> sollte die Basislinie – sofern vorhanden – durch<br />

ein geeignetes Verfahren erkannt und anschließend vom Spektrum abgezogen werden. Dadurch<br />

wird verhindert, dass die Intensitäten des gemessenen Spektrums ein falsches Verhältnis<br />

widerspiegeln.<br />

28<br />

Abb. 2.3.4: Gezeigt ist der Ausschnitt aus einem ESI-MS-Spektrum <strong>von</strong><br />

IgG. Der Antikörper wurde vor der Messung reduziert. Dargestellt sind die<br />

leichten Ketten sowie drei Addukt-Modifikationen da<strong>von</strong>. m ist die Molekularmasse<br />

in D und z ist der Ladungszustand. Bei der schweren Kette<br />

sind die Adduktsignale in der Regel nicht mehr aufgelöst, weil die Signale<br />

zu nahe beieinander liegen und deswegen überlappen. Stattdessen sieht<br />

man eine Verbreiterung des Peaksockels.<br />

Abb. 2.3.5:<br />

Oben: ESI-Spektrum eines Antikörpers. Die Basislinie<br />

ist durch einen schwarzen Strich dargestellt. Die<br />

Hüllkurve der leichen Kette ist durch schwarze Kreuze<br />

angedeutet. Es handelt sich hierbei um eine bimodale<br />

Verteilung.<br />

Unten: Vergrößerter Ausschnitt des linken Teils des<br />

oben abgebildeten Spektrums.


Die Hüllkurve repräsentiert die Ladungsverteilung eines Analyten. Man kann sie in einem<br />

Spektrum sehen, indem man eine gedachte Kurve durch alle Maxima einer Peakserie legt (vgl.<br />

Abb. 2.3.5). Die Entstehung der Hüllkurve hat ihren Ursprung im Ionisierungsprozess (vgl.<br />

Kap. 2.1). Hierbei können die Analyten abhängig <strong>von</strong> ihrer 3D-Struktur mehr oder weniger<br />

stark ionisiert werden. Deren Fähigkeit, Ladungsträger aufzunehmen, folgt einer statistischen<br />

Verteilung. Der Mittelpunkt der Verteilung entspricht dem Optimum an Ladungsträgern, die<br />

ein Molekül aufnehmen kann. Anschaulich heißt dies, dass im Spektrum der intensivste Peak<br />

einer Serie dem Optimum entspricht. Vom Optimum abweichende Ladungszahlen weisen im<br />

Spektrum eine geringere Intensität auf.<br />

Die in Abb. 2.3.5 dargestellte Hüllkurve ist nicht uni-modal sondern bi-modal, wie man an<br />

den zwei lokalen Maxima der Hüllkurve erkennen kann. Dies deutet auf mehr als eine Konformation<br />

des Moleküls hin. Die Ursache für das Vorhandensein mehrerer 3D-Strukturen lässt<br />

sich im verwendeten Lösungsmittel finden. Die verwendeten Pufferlösungen sind meist so<br />

ausgelegt, dass die Analyten in ihrer Fähigkeit, Ladungen aufzunehmen, gestärkt werden. Faktoren<br />

wie Detergenzien, Chaotrope, Alkohole etc. spielen dabei eine Rolle. Der pH-Wert aber<br />

ist sicherlich der bedeutsamste <strong>von</strong> allen. Verwendet man einen sauren pH-Wert, so können<br />

die Moleküle wesentlich mehr Ladungen aufnehmen. Diese Senkung hat aber noch einen<br />

zweiten Effekt: Ein Teil der Moleküle denaturiert mehr oder weniger stark, d.h. man erhält<br />

neben der nativen Konformation noch weitere Konformationen desselben Moleküls. Jede dieser<br />

3D-Strukturen folgt bei der Ionisierung einer eigenen Ladungsverteilung und im Spektrum<br />

beobachtet man schließlich abhängig <strong>von</strong> der Zahl an verschiedenen Konformation eine uni-,<br />

bi- oder sogar tri-modale Verteilung der Hüllkurve. Dass man keine n-fach modale Verteilung<br />

beobachtet, liegt daran, dass die diversen 3D-Strukturen oft auf ähnliche Weise Ladungen<br />

aufnehmen und dadurch quasi derselben Verteilung folgen. [Dobo01, Dobo03]<br />

2.4. Bestehende Software<br />

Viele Konzepte und Algorithmen, die im Rahmen dieser Arbeit benötigt werden, stehen in<br />

Form <strong>von</strong> Bibliotheken oder fertigen Programmen dem Interessenten / Käufer zur Verfügung.<br />

Ein Hauptproblem besteht jedoch darin, dass es sich hierbei oft um Speziallösungen handelt.<br />

Somit wäre der Erwerb einer großen Zahl an Softwarelösungen notwendig, welche sich zudem<br />

schlecht miteinander verknüpfen ließen, um den erwünschten Arbeitsablauf zu gewährleisten.<br />

Im Folgenden werden einige Produkte, welche im Bereich der Massenspektrometrie anzusiedeln<br />

sind, kurz vorgestellt.<br />

Für die Berechnung der theoretischen Isotopenverteilung kann man z.B. das <strong>von</strong> Fernandez et<br />

al. entwickelte Web-Tool „Isotopica“ verwenden [Fernandez04]. Hiermit kann, ausgehend<br />

29


<strong>von</strong> einer chemischen Formel, DNA/RNA- oder Aminosäuresequenz, die Isotopenverteilung<br />

für verschiedene Ladungszustände und Auflösungen ermittelt werden. Für die visuelle Kontrolle<br />

besteht die Möglichkeit, die Rohdaten des Spektrums zu laden, um eine Überlagerung<br />

zwischen der theoretischen Isotopenverteilung und dem Spektrum durchzuführen. Eine qualitative<br />

<strong>Analyse</strong> der im Spektrum vorhandenen Massen ist nur bedingt möglich. Es besteht zwar<br />

die Möglichkeit, <strong>Protein</strong>modifikationen manuell anzugeben, jedoch fehlt eine automatische<br />

<strong>Analyse</strong>, welche die wahrscheinlichsten Modifikationen selbständig ermittelt. Ein Werkzeug<br />

für die quantitative <strong>Analyse</strong> ist nicht vorhanden.<br />

Eine professionelle und weit verbreitete Softwarelösung für Massenspektrometrie-Geräte ist<br />

„MassLynx“ der Firma Waters. Sie ermöglicht die Akquisition <strong>von</strong> Rohdaten direkt vom<br />

Massenspektrometer und bietet eine Fülle <strong>von</strong> <strong>Analyse</strong>werkzeugen an. Darunter fallen auch<br />

Methoden für eine qualitative <strong>Analyse</strong> in Form einer „Maximum-Entropie“-Entfaltung [Reinhold92]<br />

des Spektrums und Methoden für „<strong>Quantitative</strong> High-Throughput“-<strong>Analyse</strong>n. Ferner<br />

werden noch etliche Standardfunktionen wie Glättung, Basislinienkorrektur usw. angeboten.<br />

Bei der qualitativen <strong>Analyse</strong> erfährt man zwar, welche Massen im Spektrum vorhanden sind,<br />

jedoch gibt es keinen Aufschluss darüber, welche Glykovarianten den beobachteten Massen<br />

entsprechen. Eine automatische Glykosylierungsanalyse (d.h. Auflistung der den Massen entsprechenden<br />

Glykosylierungen) kann also nicht durchgeführt werden. Die als Zusatzpaket erhältliche<br />

„High-Throughput“-Quantifizierungsanwendung ist für (kleine) Peptide konzipiert.<br />

Deswegen ist dieses Paket für die Quantifizierung großer Moleküle nicht geeignet.<br />

„Grams/AI“ ist eine Plattform für die Entwicklung <strong>von</strong> Chromatographie- und Spektrometrieanwendungen.<br />

Ein Hauptunterschied zu anderen Produkten besteht darin, dass sie die Möglichkeit<br />

bietet, durch Makros erweitert zu werden. Man könnte also dafür ein Quantifizierungsmodul<br />

entwickeln. Jedoch sprechen die zu erwartenden Schwierigkeiten bei der Implementierung<br />

(viele Standardroutinen, wie etwa Fitting, müssten neu implementiert werden) und<br />

die Abhängigkeit, in die man sich dabei begeben würde, gegen eine solche Entwicklung.<br />

Eine Softwarelösung, die ihren Schwerpunkt auf die Datenanalyse setzt, ist „PeakFit“. Auch<br />

hier werden die üblichen Standardmethoden in diesem Umfeld, wie etwa Glättung oder Basislinienkorrektur<br />

usw., angeboten. Zusätzlich wird die Möglichkeit dargeboten, Peaks verschiedener<br />

Verteilungsfunktionen an das Spektrum zu fitten. Als Erweiterung da<strong>von</strong> kann man mit<br />

diversen Peakfunktionen eine Entfaltung des Spektrums durchführen. Der Hauptnachteil hierbei<br />

ist, dass dieser Prozess sehr allgemein gehalten ist. Man kann z.B. keine Massen (Signalserien)<br />

angeben, die als Basis für die Entfaltung dienen sollen. Somit bleibt es bei ESI-<br />

Spektren eher dem Zufall überlassen, ob die richtigen Serien gefunden werden oder nicht.<br />

„Massfinder I“ ist bei Roche im Rahmen einer Diplomarbeit [ELehmann05] entstanden, welches<br />

speziell für die qualitative <strong>Analyse</strong> <strong>von</strong> ESI-<strong>Massenspektren</strong> entwickelt worden ist. Ausgehend<br />

<strong>von</strong> einem Spektrum und dessen MaxEnt-Entfaltung kann mit Massfinder ermittelt<br />

30


werden, welche Massen im Spektrum vorhanden sind. Ein weiteres wichtiges Feature besteht<br />

in der Bestimmung der Glykosylierungsvarianten. So ist im Falle <strong>von</strong> Antikörpern eine Zuordnung<br />

der Glykosylierungsmodifikation zu einer im Spektrum vorhandenen Spezies möglich.<br />

Hierzu muss die Masse des nackten Antikörpers (ohne Zucker) angegeben werden. Ein<br />

genetischer Algorithmus ermittelt basierend darauf und einer gegebenen Modifikationsliste<br />

die in Frage kommenden Varianten. Eine Möglichkeit zur Quantifizierung ist nicht vorhanden.<br />

Es gibt bereits eine bestehende In-House Entwicklung für die Quantifizierung großer Moleküle.<br />

Diese führt die Quantifizierung auf der 4. Ableitung des Spektrums durch, weil hier das<br />

Hintergrundsignal <strong>von</strong> den Peaks getrennt ist. Die Messung auf der 4. Ableitung ist unproblematisch,<br />

weil die Peakintensitäten proportional zu den Intensitäten des originalen Spektrums<br />

sind. Obwohl der Rechenprozess komplett automatisiert ist, bedarf es für die Ausführung des<br />

Programms einer Parameterdatei. In dieser müssen neben anderen Kenngrößen die Massen,<br />

die freien Ladungszustände sowie der Bereich, in dem sich die Halbwertsbreiten der Peaks befinden<br />

definiert werden. Das ist auch der Hauptnachteil bei dieser Lösung, denn die Anforderung,<br />

für jedes zu quantifizierende Spektrum eine neue Parameterdatei zu erstellen, macht das<br />

Programm unflexibel.<br />

Dieser kurze Überblick zeigt, dass es Softwarelösungen auf dem Markt gibt, diese jedoch den<br />

Anforderungen (vgl. folgendes Kapitel) nicht gerecht werden:<br />

• Ein Produkt allein ist nicht ausreichend, um das gewünschte Ergebnis zu erzielen,<br />

folglich kommen Mehrkosten durch den Erwerb zusätzlicher Lizenzen und die Einarbeitungszeit<br />

zustande.<br />

• Eine befriedigende Quantifizierungslösung ist in keinem der hier vorgestellten Produkte<br />

vorhanden. Es besteht zwar eine In-House Entwicklung, diese ist jedoch nicht<br />

flexibel genug, wenn es darum geht, mit geringem Zeitaufwand verschiedene Spektren<br />

zu quantifizieren.<br />

• Die meisten käuflichen Lösungen sind für kleine Peptid-Massen entwickelt worden.<br />

Deren Spektren sind leicht zu handhaben und somit gestaltet sich auch die Quantifizierung<br />

der darin enthaltenen Massen als relativ unproblematisch.<br />

• Der Schwerpunkt der Anforderungen hier liegt in der Entwicklung einer Quantifizierungslösung<br />

für große Moleküle, nämlich Antikörper. Deren Spektren sind weitaus<br />

komplexer als die kleiner Peptidmoleküle. So muss man hier mit Rauschen, Addukt-<br />

Signalen und Überlagerungen <strong>von</strong> Peaks zurechtkommen, was eine Quantifizierung<br />

erschwert.<br />

• Eine Vereinigung <strong>von</strong> qualitativer und quantitativer <strong>Analyse</strong> großer Moleküle, welche<br />

den Arbeitsablauf beschleunigen würde, ist in keinem Produkt zu finden.<br />

All diese Punkte führen zu dem Schluss, dass es für die Lösung des Problems auf dem Markt<br />

keine ausreichend guten Produkte gibt. Somit ist eine Eigenentwicklung anzustreben, welche<br />

den Anforderungen gerecht wird.<br />

31


2.5. Anforderungen<br />

Ziel dieser Arbeit ist es, Konzepte für die Quantifizierung <strong>von</strong> ESI-MS-Spektren zu entwickeln,<br />

sowie deren Realisierung in einem Softwareprodukt umzusetzen. Der Schwerpunkt<br />

wird auf die Quantifizierung schwerer Biomoleküle wie z.B. Antikörper gelegt. Die Verarbeitung<br />

kleiner Moleküle wie z.B. Interferon soll aber auch möglich sein.<br />

Mit „Massfinder I“ wurde bereits ein Schritt in die Softwareentwicklung für ESI-MS-Geräte<br />

unternommen. Wie bereits erwähnt, deckt „Massfinder I“ die qualitative <strong>Analyse</strong> <strong>von</strong> Antikörper-<strong>Massenspektren</strong><br />

ab. Die bestehende Lösung soll um Mechanismen für eine quantitative<br />

<strong>Analyse</strong> erweitert werden, so dass ein optimaler Arbeitsablauf <strong>von</strong> der Erfassung der im<br />

Spektrum vorhandenen Spezies bis zur Bestimmung ihrer Anteile entsteht. Da die Integration<br />

<strong>von</strong> Quantifizierungslösungen tief in Massfinder verankert werden soll, war eine Einarbeitung<br />

in den bestehenden Quellcode und dessen Organisationsstruktur notwendig.<br />

Bei einem Gespräch mit den verantwortlichen Personen hat sich herauskristallisiert, dass eine<br />

Methode gewünscht wird, die einfach zu bedienen ist, robust ist und ähnlich gute Ergebnisse<br />

liefert wie die per Hand durchgeführte Quantifizierung. Robust heißt, dass das Programm<br />

auch für schlechte Spektren, die stark verrauscht sind oder Verunreinigungen enthalten, noch<br />

gute Resultate liefert. Außerdem soll der Quantifizierungsprozess soweit wie möglich automatisiert<br />

werden. Der Anwender soll demnach im Hintergrund stehen und nur an einigen wenigen<br />

Stellen helfend eingreifen. Dieses Prinzip wird im Folgenden als semiautomatische Quantifizierung<br />

bezeichnet. Neben der Entwicklung semiautomatischer Methoden besteht die Anforderung,<br />

dass mit der Weiterentwicklung <strong>von</strong> MF auch die manuelle Bestimmung der Massenverhältnisse<br />

möglich sein soll.<br />

Ein genauer Lösungsweg für die Quantifizierung wurde nicht formuliert. Vielmehr wurden die<br />

zu erwartenden Probleme dieser Aufgabenstellung kurz angesprochen: Sowohl die Basislinie<br />

als auch Adduktsignale verfälschen die Peakintensität. Folglich muss für eine korrekte Messung<br />

der Verhältnisse die Basislinie abgezogen werden sowie Adduktsignale auf geeignete Art<br />

und Weise erkannt werden. Ein weiterer Störfaktor <strong>von</strong> Spektren ist Rauschen. Normalerweise<br />

werden Aufnahmen, in denen fremde Komponenten das Spektrum stören, neu getätigt. Um<br />

dem zu begegnen, könnte man aber auch einen Filter entwickeln, welcher die Signalqualität<br />

steigert, so dass auf dem gefilterten Spektrum gearbeitet werden kann. Als letzter Punkt wurde<br />

angedeutet, dass die korrekte Bestimmung der Hüllkurve hilfreich wäre, weil dadurch eine<br />

Quantifizierung über alle Ladungszustände möglich wäre, was die Genauigkeit der Messung<br />

steigert. Demzufolge müssen Methoden für das Filtern des Spektrums, für die Erkennung <strong>von</strong><br />

32


Peak-Überlappungen und für die Bestimmung der Hüllkurve entworfen werden, um anschließend<br />

die Quantifizierung durchzuführen.<br />

Die manuelle Variante unterscheidet sich <strong>von</strong> der semiautomatischen Variante dadurch, dass<br />

hierbei der Benutzer bei allen Schritten vollständige Kontrolle über die Aktionen hat. Einzig<br />

die Berechnung der Peakhöhen und der damit verbundenen Quantitäten wird automatisiert –<br />

eine Messung der Höhe mit Lineal entfällt also.<br />

Es ist eine weitestgehend automatisierte Quantifizierungpipeline erwünscht, welche a) schneller<br />

durchführbar ist als die manuelle Variante und b) bessere oder ähnlich gute Ergebnisse liefert<br />

wie diese. Die Ergebnisse einer Messung sollen in tabellarischer Form präsentiert werden.<br />

Die Herausforderung besteht somit darin, gute Lösungswege (vgl. dazu Kap. 3.1) für die skizzierten<br />

Probleme zu entwickeln.<br />

33


3. Konzepte<br />

In diesem Kapitel werden die einzelnen Bausteine, welche in der Quantifizierung Verwendung<br />

finden, im Detail vorgestellt. Um den Zusammenhang zwischen den Grundbausteinen<br />

besser zu verstehen, wird zunächst eine Übersicht über das entworfene Gesamtkonzept gegeben.<br />

Hierbei werden die möglichen Arbeitsabläufe einer Quantifizierung gezeigt und auf mögliche<br />

Probleme wird kurz hingewiesen.<br />

3.1. Lösungswege<br />

Ausgehend <strong>von</strong> einem gemessenen Spektrum stellen sich die Fragen, welche Komponenten<br />

vorhanden sind und in welchen Verhältnissen diese zueinander stehen. Die erste Frage kann<br />

bereits mittels „Massfinder I“ beantwortet werden [ELehmann05]. Die Beantwortung der<br />

zweiten Frage, d.h. die Bestimmung der Quantitäten der im Spektrum vorhandenen Spezies,<br />

kann auf mehrere Arten erfolgen.<br />

Abb. 3.1.1: Das Flussdiagramm zeigt die möglichen<br />

Quantifizierungswege in Massfinder II.<br />

Der bevorzugte Weg ist blau markiert.<br />

Für alle Quantifizierungsvarianten (vgl. Abb. 3.1.1) kann optional eine Glättung und eine Basislinienkorrektur<br />

des Spektrums durchgeführt werden. Ersteres muss bei sehr stark verrauschten<br />

Spektren angewendet werden, da sonst die Peakintensitäten nicht richtig erkannt werden.<br />

35


Ein starkes Rauschen hat man z.B. dann, wenn man Aufnahmen <strong>von</strong> geringen Probenmengen<br />

macht. Hierbei ist eine starke Amplifizierung des Signals notwendig, was ein verstärktes Rauschen<br />

mit sich bringt. Die Basislinienkorrektur wird verwendet, um das durch das Gerät verursachte<br />

Signal sowie unerwünschte schwache Addukt-Signale herauszufiltern.<br />

Nach diesen zwei optionalen Schritten findet eine Peakauswahl statt, d.h. es wird angegeben,<br />

welche Peaks jeder Serie für die Quantifizierung verwendet werden sollen. Für diesen Auswahlprozess<br />

werden drei Möglichkeiten geboten:<br />

1) Manuell: Der erfahrene Anwender wählt die Peaks per Hand aus.<br />

2) Schnittmenge: Für jede zu quantifizierende Spezies wird der minimal und der maximal<br />

mögliche Ladungszustand ermittelt. Es wird die Schnittmenge gebildet, so<br />

dass man das größte Minimum und das kleinste Maximum erhält. Für jede Spezies<br />

werden die entsprechenden Ladungszustände in diesem Bereich selektiert.<br />

3) Schnittmenge & nicht überlappend: Analog zu 2) und zusätzlich gilt, dass die ausgewählten<br />

Peaks nicht mit Peaks anderer Massen überlappen dürfen.<br />

4) Alle: Es werden <strong>von</strong> jeder Spezies alle Ladungszustände ausgewählt.<br />

Der Sinn hinter Variante 2) ist folgender: Man nimmt an, dass verschiedene Spezies eines Basismoleküls<br />

eine ähnliche Ladungsverteilung haben, d.h. die Hüllkurve ist ähnlich. Sofern<br />

man jetzt nicht über alle Peaks, sondern nur über eine Teilmenge der im Spektrum vorhandenen<br />

Peaks quantifiziert, sollten <strong>von</strong> allen beteiligten Spezies nur homologe Ladungszustände z<br />

betrachtet werden.<br />

Um dies zu verdeutlichen hier ein Beispiel: Angenommen, die Hüllkurve I(z) (Intensität I gegen<br />

Ladungszustand z) <strong>von</strong> Spezies A und Spezies B sei Gauß-Verteilt, d.h. es gilt<br />

I(z)=GAUSS(z;Amplitude,Mittelpunkt,FWHM). Sei weiterhin angenommen, dass Spezies A<br />

und Spezies B sehr ähnlich sind, d.h. wenn man die Parameter der beiden Verteilungen betrachtet,<br />

unterscheiden sie sich nur in der Amplitude:<br />

36<br />

Spezies A Spezies B<br />

Amplitude 800 1000<br />

Mittelpunkt 30 30<br />

FWHM 10 10<br />

Für eine Quantifizierung <strong>von</strong> Spezies A und Spezies B im Sinne <strong>von</strong> Variante 2) wählt man<br />

gleiche Ladungszustände aus und berechnet daraus das Verhältnis. Exemplarisch wird z=40<br />

gewählt, damit erhält man für die Intensität an dieser Stelle ISpeziesA(40;800,30,10)=50,0 und<br />

ISpeziesB(40;1000,30,10)=62,5, was einem Verhältnis <strong>von</strong> 44,44 % (Spezies A) zu 55,56 %<br />

(Spezies B) entspricht. Dieses Ergebnis entspricht überaus gut dem Verhältnis der Flächen<br />

beider Verteilungen. Würde man aber für Spezies B z=30 anstatt z=40 wählen, so erhält man<br />

ISpeziesB(30;1000,30,10)=1000, was ein Verhältnis <strong>von</strong> 4,76 % zu 95,24 % bedeuten würde –<br />

ein falsches Ergebnis. Man muss also gleiche z-Werte gegenüberstellen, um ein korrektes Ergebnis<br />

zu erhalten. Diese Annahme gilt natürlich nur dann, wenn verschiedene Varianten ei-


nes Basismoleküls betrachtet werden, d.h. ähnliche Moleküle. Falls gänzlich unterschiedliche<br />

Moleküle betrachtet werden, sollte man über alle Peaks quantifizieren, da hier die Hüllkurven<br />

u.U. völlig anders verteilen und sich somit in mehr Parametern als nur der Amplitude unterscheiden.<br />

Bei Variante 3) wird versucht, zusätzliche Störquellen auszuschließen, indem nur diejenigen<br />

Peaks betrachtet werden, die nicht mit anderen Peaks überlappen. Um Überlappungen zu erkennen,<br />

muss jedoch die Peakform einer Masse bekannt sein. Diese wird im Wesentlichen<br />

durch die Isotopenverteilung determiniert.<br />

Die erste Variante sollte dem erfahrenen Anwender überlassen werden. Damit soll gewährleistet<br />

werden, dass auch Spezialfälle behandelt werden können. Variante 3) sollte angewendet<br />

werden, wenn die tatsächliche Hüllkurve einer Spezies nicht bekannt ist. Ist die Hüllkurve einer<br />

Serie bekannt bzw. wird sie durch geeignete Verfahren bestimmt, so sollte Variante 4) benutzt<br />

werden.<br />

Der letzte Schritt vor der Quantifizierung ist ebenfalls optional und beinhaltet die Bestimmung<br />

der tatsächlichen Hüllkurve einer Peakserie. Im Idealfall kann durch die Bestimmung<br />

der Hüllkurven aller Peakserien das komplette Spektrum erklärt werden, d.h. die Summe der<br />

simulierten Peakserien entspricht gerade der gemessenen Kurve (vgl. Abb. 3.1.2). Das Auffinden<br />

der Hüllkurve wird mit Methoden aus dem Curve-Fitting gelöst.<br />

Abb. 3.1.2: Dargestellt ist ein hypothetisches<br />

Spektrum (schwarz). Des<br />

Weiteren sind die Peakserien (rot,<br />

grün und blau) eingezeichnet, deren<br />

Summe dem beobachteten Signal<br />

entspricht.<br />

Bei einfachen Spektren, die über kaum signifikante Überlagerungen verfügen muss die Hüllkurve<br />

nicht notwendigerweise bestimmt werden. Bei komplexen Spektren, wie sie im Falle<br />

<strong>von</strong> Antikörpern auftreten, ist allerdings die Bestimmung der Hüllkurve sehr empfehlenswert,<br />

da, wie in der Validierung später gezeigt wird, diese zu einem der besten Quantifizierungsergebnisse<br />

führt.<br />

37


Nach optionaler Bestimmung der Hüllkurve kann die Fläche jeder Serie berechnet werden und<br />

die Resultate können in Relation gesetzt werden, so dass man <strong>von</strong> jeder Masse die relativen<br />

Anteile am Spektrum erhält.<br />

Für eine erfolgreiche Bestimmung der Quantitäten muss / müssen u.a.<br />

38<br />

• die Peakserien simuliert werden und zwar hinsichtlich Isotopenverteilung und ESI-<br />

MS-spezifischer Verbreiterung der Peaks,<br />

• das Spektrum – falls zu stark verrauscht – geglättet werden,<br />

• die Basislinie – sofern vorhanden – abgezogen werden,<br />

• diejenigen Peaks jeder Serie ausgewählt werden, welche zur Quantifizierung herangezogen<br />

werden sollen,<br />

• die tatsächliche Hüllkurve jeder Serie bestimmt werden.<br />

Jeder dieser Schritte ist mit Einschränkungen bzw. Schwierigkeiten verbunden. Bei der Glättung<br />

darf die Form eines Peaks nicht verändert werden, bei der Basislinienkorrektur darf nicht<br />

zuviel vom Spektrum abgezogen werden, bei der Isotopenverteilung muss die Verbreiterung<br />

der Peaks simuliert werden und bei der Entfaltung des Spektrums hat man das Problem, dass<br />

Peaks häufig durch andere überlagert sind (welcher Peak trägt zu welchem Anteil zum gemessenen<br />

Signal bei?), was eine korrekte Bestimmung der Hüllkurve erschwert.<br />

3.2. Glättung<br />

Eine Glättung des Spektrums kann optional durchgeführt werden, um das Signal-zu-Rausch-<br />

Verhältnis der y-Ordinaten zu verbessern. Falls das Spektrum wenig Rauschen besitzt, sollte<br />

auf eine Glättung verzichtet werden, da diese für die <strong>Analyse</strong> keine Vorteile bringen würde.<br />

Sind die Daten hingegen sehr stark verrauscht, so ist eine Glättung durchaus empfehlenswert<br />

(vgl. Abb. 3.2.2). Die verbesserte Signalqualität führt zu einem besseren Erkennen der Peaks<br />

sowie der Basislinie. Ersteres ist auch für das Fitting der Hüllkurve <strong>von</strong> Bedeutung.<br />

Eine wichtige Eigenschaft, welche die Glättung erfüllen muss, ist, dass die Peaks nicht verschoben<br />

oder verformt werden. Ist diese Bedingung nicht erfüllt, können Fehler bei der Quantifizierung<br />

die Folge sein.<br />

Die elementarste Glättungsmethode ist „moving window averaging“ [NR]. Ein Fenster einer<br />

festgelegten Größe wird über die y Ordinaten geschoben, beginnend bei y0 und endend bei<br />

yLen-1, wobei Len die Anzahl der Datenpunkte ist. Für jede Position i wird der Durchschnitt der<br />

im Fenster befindlichen y Werte berechnet. Als Ergebnis erhält man für jede Stelle i den lokalen<br />

Durchschnittswert <strong>von</strong> y. Dieser Prozess lässt sich wie folgt beschreiben:


Man betrachtet um einen Datenpunkt yi nL Punkte links da<strong>von</strong> und nR Punkte rechts da<strong>von</strong>, insgesamt<br />

�=nL+nR+1 Punkte. Dies entspricht dem Fenster, welches über die Datenpunkte geschoben<br />

wird. Die Ordinaten werden mit einem Gewichtungsfaktor cn multipliziert. Bei „moving<br />

window averaging“ ist cn=1/�.<br />

= ∑<br />

= −<br />

R n<br />

i cn<br />

n nL<br />

g y<br />

(3.2.1)<br />

i+<br />

n<br />

Dieses Verfahren kann für Spektren nicht angewendet werden, obwohl es auf den ersten Blick<br />

seinen Zweck, nämlich das Rauschen zu vermindern, zu erfüllen scheint. Die Methode bringt<br />

nämlich zusätzliches unerwünschtes Rauschen ins Signal, weil sie sehr stark dazu neigt, Peaks<br />

in ihrer Intensität zu vermindern (vgl. Abb. 3.2.1).<br />

Savitzky und Golay haben 1964 einen Glättungsalgorithmus (genannt: Savitzky-Golay oder<br />

least-squares) speziell für Spektren entwickelt, welcher die Eigenschaft hat, das Rauschen zu<br />

eliminieren, ohne dabei die Intensität der Peaks zu verändern [SavGol64]. Hierbei wird die<br />

Annahme gemacht, dass die x-Ordinaten äquidistant sind und dass nur die y-Daten verrauscht<br />

sind. Die Methode <strong>von</strong> Savitzky und Golay ist bis auf die Bestimmung des Gewichtungsfaktors<br />

cn analog zum „moving window averaging“-Algorithmus. Um gute Gewichtungsfaktoren<br />

für die im Fenster befindlichen Punkte zu erhalten, wird ein Fitting eines Polynoms M-ten<br />

Grades auf die Ordinaten y i-n ,..., y<br />

L i+<br />

n durchgeführt. Das Polynom hat die Form:<br />

R<br />

k M<br />

k<br />

M<br />

f i = ∑ aki<br />

= a + a i + + aM<br />

i -nL<br />

≤ i ≤<br />

k<br />

=<br />

( )<br />

0 1 ... wobei<br />

= 0<br />

n<br />

R<br />

(3.2.2)<br />

Die Parameter a werden so gewählt, dass der quadratische Fehler χ², d.h. die Differenz zwischen<br />

berechneten und tatsächlichen Punkten, minimiert wird.<br />

2<br />

i<br />

n<br />

∑<br />

n=<br />

−n<br />

= R<br />

( f ( i + n)<br />

− y )<br />

L<br />

2<br />

i+<br />

n<br />

χ (3.2.3)<br />

Um die Parameter a zu finden, welche χ² minimieren, wird die erste Ableitung nach den Parametern<br />

gebildet. Hierbei erhält man:<br />

39


40<br />

∂<br />

0 =<br />

∂a<br />

= 2<br />

⇒<br />

⇒<br />

R<br />

∑ ⎜⎜<br />

∑<br />

i=<br />

−nL<br />

n<br />

R<br />

∑ ∑<br />

∑<br />

k=<br />

0<br />

R<br />

∑<br />

r n=<br />

−nL<br />

⎛⎛<br />

⎜<br />

⎝⎝<br />

n=<br />

−nL<br />

k=<br />

0<br />

M<br />

n<br />

a<br />

n<br />

M<br />

( f ( i + n)<br />

− y )<br />

k=<br />

M<br />

n<br />

k=<br />

0<br />

k<br />

R<br />

∑<br />

k<br />

n=<br />

−nL<br />

k ⎞<br />

ak<br />

( i + n)<br />

⎟ − y<br />

⎠<br />

a ( i + n)<br />

( i + n)<br />

k+<br />

r<br />

k+<br />

r<br />

2<br />

i+<br />

n<br />

=<br />

=<br />

R<br />

∑<br />

i+<br />

n<br />

n=<br />

−nL<br />

n<br />

n<br />

R<br />

∑<br />

∂<br />

=<br />

∂a<br />

i+<br />

n<br />

y<br />

y<br />

i+<br />

n<br />

n=<br />

−nL<br />

n<br />

R<br />

∑ ⎜⎜<br />

∑<br />

r n=<br />

−nL<br />

⎞<br />

⎟<br />

⎟(<br />

i + n)<br />

⎠<br />

( i + n)<br />

( i + n)<br />

r<br />

⎛⎛<br />

⎜<br />

⎝⎝<br />

r<br />

r<br />

k=<br />

M<br />

k=<br />

0<br />

Man bekommt also ein lineares Gleichungssystem:<br />

α<br />

k+<br />

r<br />

β =<br />

k<br />

=<br />

nR<br />

nR<br />

n=<br />

−nL<br />

∑<br />

∑<br />

n=<br />

−nL<br />

( i + n)<br />

( i + n)<br />

[ α k+<br />

r ] a = [ βk<br />

] k,<br />

r<br />

k<br />

k<br />

k+<br />

r<br />

y<br />

i<br />

k ⎞<br />

ak<br />

( i + n)<br />

⎟ − y<br />

⎠<br />

i+<br />

n<br />

⎞<br />

⎟<br />

⎠<br />

2<br />

(3.2.4)<br />

(3.2.5)<br />

Um den Parametervektor a zu bestimmen, wird das Gleichungssystem mit LU-<br />

Dekomposition, Cholesky-Dekomposition oder Gauß-Jordan-Elimination gelöst. Die Komponenten<br />

des Parametervektors a werden als Gewichtungskoeffizienten cn in Gl. (3.2.1) verwendet.<br />

Der so beschriebene Prozess hat den Nachteil, dass das Fitting für jede Fensterbewegung neu<br />

durchgeführt wird. Dies ist aber nicht notwendig, weil die Koeffizienten des angepassten Polynoms<br />

innerhalb des Datenbereichs linear sind, d.h. das Fitting muss nur einmal durchgeführt<br />

werden. Hierzu verwendet man fiktive Ordinaten, welche bis auf y0=1 überall gleich null sind.<br />

Anschließend kann mit den so berechneten Gewichtungskoeffizienten cn jeder beliebige äquidistante<br />

Datensatz geglättet werden. [NR]<br />

Der Savitzky-Golay-Algorithmus benötigt äquidistante Datenpunkte, um eine gute Glättung<br />

durchzuführen. Die gemessenen Spektren sind jedoch nicht äquidistant. Deswegen findet vor<br />

der Glättung eine lineare Interpolation der Spektren statt, so dass das Intervall 0.02 amu beträgt.<br />

Die lineare Interpolation bewirkt an dieser Stelle de facto keine Verfälschung der Signale,<br />

weil die Datendichte der gemessenen Spektren sehr groß ist.<br />

Als Standardparameter für die Glättung <strong>von</strong> Antikörperspektren werden 91 Datenpunkte festgelegt<br />

sowie ein Polynom 9ten Grades. Ein geringerer Polynomgrad bewirkt bei manchen<br />

Spektren eine Verminderung der Peakhöhe. Ein Polynom höheren Grades kann nicht verwendet<br />

werden, weil der Rechenaufwand zu groß wird. Dies ist aber auch nicht notwendig, weil


mit einem Polynom 9ten Grades die Signalintensität nicht signifikant verfälscht wird. Die Anzahl<br />

Datenpunkte, d.h. die Fenstergröße legt fest wie stark die Glättung ist. Je mehr Datenpunkte<br />

gewählt werden, desto globaler wird die Glättung durchgeführt und umso mehr gehen<br />

die lokalen Eigenschaften des Spektrums verloren. Der Wert 91 hat sich beim Betrachten verschiedener<br />

Spektren als guter empirischer Wert erwiesen.<br />

Abb. 3.2.1: Vergleich <strong>von</strong> moving window<br />

averaging (Mitte) und Savitzky-<br />

Golay-Glättung (unten) eines Spektrums.<br />

[NR S.654]<br />

Als Implementierung des Savitzky-Golay-Algorithmus wurde die ANSI-C Version aus [NR]<br />

übernommen.<br />

Abb. 3.2.2: Spektrum eines monoklonalen<br />

Antikörpers.<br />

Oben: Unmodifiziertes Spektrum.<br />

Unten: Savitzky-Golay-Glättung des<br />

Spektrums mit einem Polynom 9ten<br />

Grades und 91 Datenpunkten.<br />

41


3.3. Basislinie<br />

Die Basislinie enthält fremdes Signal, welches, falls nicht abgezogen, zu einer Verfälschung<br />

des Quantifizierungsergebnisses führt. Deswegen ist es essentiell, die Basislinie abzuziehen.<br />

Algorithmen für die Erkennung der Basislinie gibt es viele. Jeder hat seine eigenen charakteristischen<br />

Eigenschaften mit Vor- und Nachteilen. Die Diversität der Ansätze entstand nicht<br />

zuletzt durch die unterschiedlichsten Anwendungsgebiete, für die sie entwickelt wurden. Bei<br />

manchen Spektren ist es z.B. ausreichend, einfach eine Linie abzuziehen, welche durch zwei<br />

Punkte bestimmt ist: Einen am Anfang und einen am Ende des Spektrums. Bei anderen sind<br />

Ansätze, die aus der Bildbearbeitung stammen, sinnvoll. Hierbei werden morphologische<br />

nichtlineare Filter angewendet, wie z.B. der „top-hat“-Operator [TopHat].<br />

Bei einer Diskussion mit den Laboranten hat sich herauskristallisiert, dass sie im Wesentlichen<br />

zwei Ansätze wählen, um die Basislinie abzuziehen. Die einen ziehen die Basislinie mit<br />

einer lang gezogenen glatten Kurve ab, die durch das Spektrum gelegt wird, die anderen durch<br />

Linien <strong>von</strong> Peaktal zu Peaktal (vgl. Abb. 3.3.1).<br />

Um diese Methoden zu automatisieren, werden drei Algorithmen implementiert. Der erste<br />

entspricht der „Tal-zu-Tal“-Variante und wird durch Erkennung der lokalen Minima realisiert.<br />

Der zweite soll die lang gezogene Kurve nachempfinden und wird durch eine kubische Spline-Interpolation<br />

erkannt. Als Alternative zur kubischen Spline-Interpolation wird noch ein<br />

drittes Verfahren entwickelt, welches auf der 4. Ableitung des Spektrums beruht.<br />

42<br />

a)<br />

c)<br />

b)<br />

Abb. 3.3.1: Erkennung der Basislinie mittels kubischer<br />

Spline-Interpolation a) bzw. durch Legen einer Gerade<br />

<strong>von</strong> Tal zu Tal b). Vergrößerter Ausschnitt <strong>von</strong> b) ist in<br />

c) dargestellt.


3.3.1. Von Tal zu Tal<br />

Dieses Verfahren zieht <strong>von</strong> Peaktal zu Peaktal eine Gerade, welche der Basislinie entsprechen<br />

soll (vgl. Abb. 3.3.1). Die Suche nach den lokalen Minima kann relativ einfach implementiert<br />

werden, jedoch bereitet das Signalrauschen Schwierigkeiten. Selbst bei nur leicht verrauschten<br />

Spektren werden neben den Peaktälern viele weitere lokale Minima gefunden. Damit gewährleistet<br />

ist, dass nur die Minima der Peaktäler gefunden werden, wird vor die Suche ein Filter<br />

geschaltet, welcher das Spektrum glättet. Es handelt sich um den im vorigen Kapitel vorgestellten<br />

Savitzky-Golay-Filter. Als Parameter für die Glättung wird ein Polynom 4ten Grades<br />

verwendet und die Fensterbreite auf 41 Datenpunkte festgelegt. Des Weiteren wird die Glättung<br />

dreimal hintereinander ausgeführt. Der geringe Polynomgrad sowie das mehrmalige Hintereinander-Ausführen<br />

des Filters stellt sicher, dass das Spektrum sehr glatt ist. Es werden also<br />

mit hoher Wahrscheinlichkeiten ausschließlich die Peaktäler erkannt. Das mehrmalige Filtern<br />

mit diesen Parametern bewirkt zwar eine Verfälschung der Peakintensitäten, jedoch spielt<br />

dies keine Rolle, weil nur die Lage der Minima <strong>von</strong> Interesse ist und nicht deren Höhe. Als<br />

Höhe der Minima wird die Intensität des original Spektrums an entsprechender Stelle genommen.<br />

Diese Methode hat den Nachteil, dass u.U. „echtes“ Peaksignal gelöscht wird und dadurch die<br />

Massenverhältnisse eines Spektrums verfälscht werden (vgl. Abb. 3.3.1.1). Nichts desto trotz<br />

hat sich in der Validierung (vgl. Kapitel 4) gezeigt, dass mit diesem Verfahren des Basislinienabzugs<br />

die Ergebnisse einer Quantifizierung i.d.R. besser werden.<br />

3.3.2. Kubische Spline-Interpolation<br />

Abb. 3.3.1.1: Faltung (rote Kurve) zweier<br />

Peaks (graue Kurven). Mit dem „Tal-zu-Tal“-<br />

Verfahren wird auch Signalanteil abgezogen.<br />

Dies verfälscht die Intensitäten und somit<br />

u.U. auch die relativen Verhältnisse der<br />

Peaks.<br />

Der Algorithmus für diese Variante der Basislinienerkennung funktioniert auf folgende Art<br />

und Weise: Das Spektrum wird in M Teile gespalten. In jedem dieser Teilbereiche wird eine<br />

Suche nach dem minimalen y-Wert durchgeführt. Alle so ermittelten Punkte, sowie der erste<br />

und letzte Punkt des Spektrums werden in eine neue Liste geschrieben. Die Ordinaten dieser<br />

43


Liste werden durch eine kubische Spline-Interpolation verbunden und man erhält eine Basislinie<br />

für das Spektrum. Durch die Größe <strong>von</strong> M kann festgelegt werden, wie hoch die Basislinie<br />

gezogen werden soll. Ein zu großer Wert kann aber zu unerwünschten Nebeneffekten führen,<br />

da dann der Spline eher dazu neigt, auszuschlagen. Als guter empirischer Wert für die Teilbereiche<br />

M hat sich 11 erwiesen.<br />

Die kubische Spline-Interpolation wird im Folgenden kurz erläutert: Gegeben ist ein Datensatz<br />

der Form (x1, f(x1)), (x2, f(x2)), …, (xn, f(xn)). Für jedes Intervall [xi, xi-1], wobei 2


Aufgrund der Einfachheit des Verfahrens wurde die Basislinie zunächst mit dem oben beschriebenen<br />

Verfahren erkannt. Bei der später durchgeführten Bewertung der Methoden hat<br />

sich aber herausgestellt, dass der Abzug der Basislinie sehr starke Auswirkungen auf die<br />

Quantifizierung hat (vgl. Kap. 4). Ein Fehler beim Erkennen der Basislinie kann also zu falschen<br />

Ergebnissen führen. Solche Fehler kommen bei dieser Variante bei ungünstiger Lage<br />

der zu verbindenden Punkte vor. Für den Anwender äußert sich dies visuell am Ausschlagen<br />

der interpolierten Basislinie in die falsche Richtung. Der Anwender kann diesen Fehler korrigieren,<br />

indem er einen anderen Wert für M findet. Weil dieser Methode die nötige Robustheit<br />

fehlt, wurde ein weiteres Verfahren für die Erkennung der Basislinie entwickelt.<br />

3.3.3. Vierte Ableitung<br />

Als Ergebnis der kubischen Spline-Interpolation erhält man eine Basislinie welche lang gezogen<br />

über das gesamte Spektrum liegt. Die Basislinie ist also ein niederfrequentes Signal innerhalb<br />

hochfrequenter Peaksignale. Der Ansatz mit dem kubischen Spline hat den Nachteil,<br />

dass die Fenstergröße M abhängig vom betrachteten Spektrum angepasst werden muss um gute<br />

Resultate zu erhalten. Im Folgenden wird ein gänzlich anderer Ansatz zur Elimination der<br />

Basislinie vorgestellt, welches nicht den erwähnten Nachteil besitzt. Der Grundgedanke hierbei<br />

bleibt jedoch der Gleiche: die Basislinie ist ein nieder frequentes Signal im Spektrum, d.h.<br />

ein Polynom geringen Grades.<br />

Es wird die vierte Ableitung des Spektrums durchgeführt. Dadurch verschwinden alle Polynome<br />

1ten, 2ten und 3ten Grades aus dem Signal. Die nieder frequente Basislinie ist also eliminiert<br />

und es bleiben nur die hochfrequenten Peaksignale übrig. Die Quantifizierung wird<br />

auf den positiven Teil der vierten Ableitung des Spektrums durchgeführt.<br />

Wie eben bereits angedeutet ist es mit Hilfe der Ableitung möglich, Polynome geringen Grades<br />

aus einem Signal zu entfernen. Eine weitere sehr wichtige Eigenschaft der Ableitung ist,<br />

dass die Amplitudenverhältnisse nicht verzerrt werden: Die Amplitude der n-ten Ableitung eines<br />

Peaks ist umgekehrt proportional zur n-ten Potenz ihrer Halbwertsbreite. Folglich trennt<br />

Ableiten nach der Peakbreite, d.h. je größer der Grad der Ableitung, desto größer die Trennung.<br />

[Haver05]<br />

Zur Illustration dient das folgende Beispiel (vgl. dazu Abb. 3.3.3.1). Eine Gauß-Kurve (blaue<br />

Kurve), welche den Peak repräsentiert, ist auf einem Polynom 3ten Grades moduliert (rote<br />

Kurve) (vgl. a). Führt man die zweite Ableitung des Gauß-Peaks und des modulierten Signals<br />

durch (vgl. b), so sieht man, dass im modulierten Signal ein beachtlicher Anteil des Polynoms<br />

3ten Grades bereits entfernt ist. Bei der 4. Ableitung bleibt <strong>von</strong> dem Polynom 3ten Grades<br />

nichts mehr übrig, wie man an der perfekten Überlagerung beider Signale sehen kann (vgl. c).<br />

45


Dieser Mechanismus funktioniert nur dann, wenn das Hintergrundsignal einen deutlich kleineren<br />

Polynomgrad aufweist, als die Peaks des Spektrums. Dies ist für die hier betrachteten Antikörper<br />

ESI-MS-Spektren der Fall. Das Betrachten einiger repräsentativer Spektren hat gezeigt,<br />

dass es sich bei der Basislinie immer um eine sehr breite Kurve handelt, die durch das<br />

Spektrum geht. In Folge dessen ist die vierte Ableitung ausreichend, um die Basislinie aus<br />

dem Signal zu löschen. Ein höherer Ableitungsgrad ist nicht notwendig und kann sogar schädlich<br />

sein, weil ab einem bestimmten Grad auch Peaksignale eliminiert werden.<br />

Die Quantifizierung der Spezies kann – wegen der erwähnten Proportionalität – auf der vierten<br />

Ableitung durchgeführt werden. Dazu werden nur die positiven Signalanteile benötigt,<br />

weil die Peaks die gleiche Position wie das Ausgangssignal haben und positiv sind.<br />

Um die Ableitung eines Signals zu erhalten, wird der Savitzky-Golay-Filter verwendet [Sav-<br />

Gol64, NR]. Der Vorteil dabei ist, dass die Ableitung bereits geglättet ist. Als Parameter für<br />

die Glättung haben sich folgende empirische Werte als gut erwiesen: Der Grad des Polynoms<br />

sollte auf 6 gesetzt werden und die Anzahl Datenpunkte des Fensters auf 91.<br />

3.4. Isotopenverteilung<br />

Die Isotopenverteilung eines Moleküls kann durch die Entfaltung seines Polynoms berechnet<br />

werden.<br />

46<br />

a) b)<br />

c)<br />

Abb. 3.3.3.1: Blaue Kurve: Gauß-Peak. Rote<br />

Kurve: Überlagerung eines Polynoms 3ten Grades<br />

mit dem Gauß-Peak (blaue Kurve).<br />

a) Ausgangssituation. Die Peakintensität im modulierten<br />

Signal (rote Kurve) ist nicht mehr eindeutig<br />

feststellbar. Beim reinen Peaksignal (blaue<br />

Kurve) hingegen ist die Intensität sauber.<br />

b) Zweite Ableitung beider Kurven. Das Hintergrundsignal<br />

aus der modulierten Kurve ist fast<br />

komplett entfernt.<br />

c) Vierte Ableitung beider Kurven. Das Hintergrundsignal<br />

ist verschwunden und die Kurven<br />

überlagern perfekt.


Seien a, b, c, … polyisotopische Elemente wobei a1, a2, a3, …, b1, b2, b3, …, c1, c2, c3, … die<br />

Isotope der Elemente repräsentieren. Sei na, nb, nc, … die Anzahl der Atome eines Elements<br />

im Molekül. Dann lässt sich die Isotopenverteilung eines Moleküls als Produkt <strong>von</strong> Polynomen<br />

darstellen:<br />

na<br />

nb<br />

nc<br />

( a a + a + ) ⋅ ( b + b + b + ... ) ⋅ ( c + c + c + ... ) ...<br />

1<br />

+ (3.4.1)<br />

2<br />

3<br />

... 1 2 3<br />

1 2 3<br />

Die Entfaltung des Polynoms gibt Informationen über die Isotopenzusammensetzung, deren<br />

Häufigkeit und deren Masse. Zur Verdeutlichung ein Beispiel mit BrCl3 + als Molekül [Budzikiewicz92].<br />

( ) ( ) ( ) ( )<br />

( ) ( )<br />

( ) ( )<br />

( ) ( ) 3<br />

79 81 35 37 3 79 35 3 79 35 2 37<br />

Br+<br />

Br ⋅ Cl+<br />

Cl = Br ⋅ Cl + 3⋅<br />

Br ⋅ Cl ⋅ Cl<br />

79 35 37 2 79 37 3<br />

+ 3⋅<br />

Br⋅<br />

Cl ⋅ Cl + Br Cl<br />

81 35 3 81 35 2 37<br />

+ Br ⋅ Cl + 3⋅<br />

Br ⋅ Cl ⋅ Cl<br />

81 35 37 2 81 37<br />

+ 3⋅<br />

Br⋅<br />

Cl ⋅ Cl + Br ⋅ Cl<br />

(3.4.2)<br />

Der Koeffizient vor jedem Term sagt aus, wie oft die entsprechende Isotopenkombination<br />

vorkommt. Die Potenz nach jedem Isotop steht für die Menge des Isotops in der jeweiligen<br />

Kombination. Die Häufigkeit kann man aus Tabelle 2.3.1 entnehmen, um damit für jeden<br />

Term die Frequenz zu bestimmen. Zur Vereinfachung werden die Verhältnisse hier gerundet<br />

und man erhält: 35 Cl=3, 37 Cl=1, 79 Br= 81 Br=1. Im letzten Schritt müssen Isotopenkombinationen<br />

gleicher Masse zusammengefasst werden. Das Ergebnis sieht dann so aus:<br />

m/z Isotopenmuster Peakintensität Normiert<br />

184<br />

79 35<br />

Br Cl3 1*3³=27 21%<br />

186<br />

79 35 37 81 35<br />

Br Cl2 Cl + Br Cl3 3*1*3²*1+1*3³=54 42%<br />

188<br />

79 35 37<br />

Br Cl Cl2 + 81 Br 35 37<br />

Cl2 Cl 3*1*3*1²+3*1*3²*1=36 28%<br />

190<br />

79 37<br />

Br Cl3 + 81 Br 35 Cl 37 Cl2 1*1³+3*1*3*1²=10 8%<br />

192<br />

81 37<br />

Br Cl3 1*1³=1 1%<br />

Die Anzahl der Kombinationen K kann mit dem Binomialkoeffizienten berechnet werden. Die<br />

Analogie findet sich in dem Urnenmodell „Ziehen mit Zurücklegen“ wieder. Die verschiedenen<br />

Kugelsorten q entsprechen den stabilen Isotopen eines Elements. Die Anzahl n der gezogenen<br />

Kugeln entspricht der Anzahl Atome des Elements:<br />

K<br />

⎛q + n −1⎞<br />

; (3.4.3)<br />

⎝ n ⎠<br />

( q n)<br />

= ⎜ ⎟<br />

Zur Illustration dient wieder das Molekül BrCl3 + . Für Br erhält man KBr(2,1)=2 Kombinationen<br />

und für Cl3 erhält man KCl(2,3)=4 Kombinationen. Um die gesamte Menge an Permuta-<br />

47


tionen zu berechnen, multipliziert man die Resultate beider Elemente miteinander und erhält<br />

KBr(2,1)KCl(2,3)=8 Isotopenkombinationen. Dies entspricht exakt der Anzahl <strong>von</strong> Termen,<br />

welche durch die Entfaltung des Polynoms gewonnen wurden (vgl. obige Tabelle).<br />

Für die Ermittlung aller Isotopenpermutationen werden lineare diophantische Gleichungen<br />

verwendet [Chang84]. Das besondere an diesen Gleichungen ist, dass nur ganzzahlige positive<br />

Lösungen erlaubt sind:<br />

48<br />

q<br />

∑<br />

j=<br />

1<br />

x<br />

j<br />

= n<br />

(3.4.5)<br />

xj ist der absolute Anteil des j-ten Isotops im Element. Seien z.B. drei Atome des Elements<br />

Sauerstoff in einem Molekül vorhanden. Sauerstoff hat drei stabile Isotope 16 O, 17 O und 18 O.<br />

Mit obiger Formel berechnet man, dass es insgesamt 10 Permutationen gibt:<br />

i x1= 16 O x2= 17 O x3= 18 O<br />

1 3 0 0<br />

2 2 1 0<br />

3 2 0 1<br />

4 1 2 0<br />

5 1 1 1<br />

6 1 0 2<br />

7 0 3 0<br />

8 0 2 1<br />

9 0 1 2<br />

10 0 0 3<br />

Es gibt also K Isotopenkombinationen. Die Häufigkeit Pi, 1


⎛<br />

⎜<br />

n!<br />

log Pi<br />

= log p<br />

⎜<br />

⎝ x1!<br />

x2!...<br />

xq!<br />

= log<br />

=<br />

n<br />

∑<br />

u=<br />

1<br />

( n!<br />

)<br />

log<br />

⎛<br />

− log⎜<br />

⎝<br />

q<br />

q<br />

∏<br />

u=<br />

1<br />

x<br />

u<br />

( u)<br />

− log(<br />

v)<br />

+ x log(<br />

p )<br />

∑∑<br />

u=<br />

1 v=<br />

1<br />

x1<br />

1<br />

p<br />

x<br />

2<br />

2<br />

... p<br />

x<br />

q<br />

⎞ ⎛<br />

xu!<br />

⎟ + log⎜<br />

⎠ ⎝<br />

q<br />

⎛<br />

⎜<br />

⎞<br />

⎟ = log<br />

⎜<br />

⎟ ⎜<br />

⎠ ⎜<br />

⎝<br />

q<br />

∑<br />

u=<br />

1<br />

q<br />

∏<br />

u=<br />

1<br />

u<br />

p<br />

x<br />

u<br />

u<br />

⎞<br />

⎟<br />

⎠<br />

q<br />

∏<br />

u=<br />

1<br />

n!<br />

u<br />

x !<br />

u<br />

q<br />

∏<br />

u=<br />

1<br />

p<br />

x<br />

u<br />

u<br />

⎞<br />

⎟<br />

⎟<br />

⎟<br />

⎟<br />

⎠<br />

(3.4.7)<br />

Es bleibt noch das Problem bestehen, dass die Anzahl der Permutationen K i.d.R. sehr groß ist<br />

und die Berechnung <strong>von</strong> log(Pi) zeitaufwendig ist. Yergey hat 1983 einen Weg vorgeschlagen,<br />

wie man die Bestimmung <strong>von</strong> log(Pi) beschleunigen kann. Es werden zwei beliebige Permutationen<br />

in Relation gesetzt, mit dem Ergebnis, dass ein Großteil der Variablen weggekürzt wird<br />

[Yergey83]:<br />

P<br />

P<br />

i+<br />

1<br />

i<br />

⇒ P<br />

n!<br />

=<br />

n!<br />

i+<br />

1<br />

q q<br />

xu<br />

pu<br />

u=<br />

1 u=<br />

1<br />

q q<br />

∏ ∏<br />

∏<br />

u=<br />

1<br />

⎛<br />

= P<br />

⎜ i<br />

⎝<br />

x<br />

q<br />

!<br />

∏<br />

∏<br />

u<br />

u=<br />

1<br />

u= 1 u<br />

'<br />

xu!<br />

=<br />

'<br />

u p<br />

x<br />

u<br />

'<br />

xu!<br />

p<br />

x !<br />

'<br />

u<br />

xu<br />

−x<br />

u<br />

q<br />

∏<br />

u=<br />

1<br />

q<br />

∏<br />

u=<br />

1<br />

⎞<br />

⎟<br />

⎠<br />

x<br />

x<br />

'<br />

u<br />

u<br />

!<br />

!<br />

q<br />

∏<br />

u=<br />

1<br />

p<br />

'<br />

u<br />

xu<br />

−x<br />

u<br />

=<br />

q<br />

∏<br />

u= 1 u<br />

'<br />

xu!<br />

p<br />

x !<br />

'<br />

u<br />

xu<br />

−x<br />

u<br />

(3.4.8)<br />

Dieser Term wird im nächsten Schritt logarithmiert, wobei zur Vereinfachung der Schreibwei-<br />

se<br />

f<br />

u<br />

'<br />

x ! '<br />

u xu<br />

−xu<br />

: = pu<br />

definiert wird, d.h.:<br />

x !<br />

log<br />

u<br />

'<br />

u xu<br />

−xu<br />

( P ) = log(<br />

P ) + log⎜<br />

p ⎟ = log(<br />

P )<br />

i+<br />

1<br />

= log<br />

i<br />

q<br />

( P ) + log(<br />

f )<br />

i<br />

∑<br />

u=<br />

1<br />

⎛<br />

⎜<br />

⎝<br />

q<br />

∏<br />

'<br />

x !<br />

x !<br />

u= 1 u<br />

Der Logarithmus <strong>von</strong> fu entspricht dabei:<br />

log<br />

( f )<br />

u<br />

⎧<br />

⎪<br />

⎪<br />

= ⎨<br />

⎪<br />

⎪<br />

⎪⎩<br />

x<br />

u<br />

∑<br />

'<br />

v=<br />

xu<br />

+ 1<br />

log<br />

u<br />

u<br />

⎞<br />

⎟<br />

⎠<br />

' ( v)<br />

− ( x − x ) log(<br />

p )<br />

u<br />

0<br />

xu<br />

' ( xu<br />

− xu<br />

) log(<br />

pu<br />

) − ∑log(<br />

v)<br />

u<br />

'<br />

v=<br />

xu<br />

+ 1<br />

u<br />

x<br />

x<br />

x<br />

u<br />

u<br />

u<br />

i<br />

> x<br />

= x<br />

< x<br />

⎛<br />

+ log ⎜<br />

⎝<br />

'<br />

u<br />

'<br />

u<br />

'<br />

u<br />

q<br />

∏<br />

u=<br />

1<br />

f<br />

u<br />

⎞<br />

⎟<br />

⎠<br />

(3.4.9)<br />

(3.4.10)<br />

49


Der Algorithmus für die Berechnung der Isotopenverteilung ist in Abb. 3.4.1 dargestellt. Zuerst<br />

wird die chemische Summenformel des Moleküls bestimmt. Anschließend wird für jedes<br />

Element die Isotopenverteilung berechnet, d.h. Bestimmung der nominellen Masse und der<br />

Häufigkeit für jede Isotopenkombination. Die Häufigkeiten gleicher Massen werden zusammengefasst.<br />

Sind alle Elemente behandelt, wird noch der Massendefekt korrigiert, indem die<br />

exakte Masse der häufigsten Isotopenkombination ermittelt wird und um den entsprechenden<br />

Differenzbetrag zur nominellen Masse korrigiert wird. Um den Vorgang noch weiter zu beschleunigen,<br />

wird nach jeder Berechnung der Isotopenhäufigkeit einer Kombination ein Pruning<br />

durchgeführt, d.h. wenn die Häufigkeit nicht mehr als 0,01 % vom aktuellen Maximum<br />

ausmacht, wird diese Kombination nicht weiter behandelt.<br />

Mit modernen Rechnern (P4 3.2 GHz) geht die Berechnung der Isotopenverteilung einer<br />

schweren Kette (~50 kD) in weniger als einer Sekunde <strong>von</strong> statten. Bei der Berechnung <strong>von</strong><br />

10 schweren Ketten bedarf es etwa 3 Sekunden Rechenzeit. Sollte einmal der Bedarf vorhanden<br />

sein, mehrere Isotopenverteilungen in einem Batch zu berechnen oder größere Moleküle<br />

zu prozessieren, so sollte ein anderer Lösungsansatz gewählt werden. Deutlich schneller als<br />

der hier angewandte Multi-Nomial-Ansatz arbeitet zum Beispiel der <strong>von</strong> Rockwood et al.<br />

entworfene Algorithmus, welcher eine schnelle Fourier Transformation (FFT) zur Berechnung<br />

nutzt [Rockwood95]. Die im Rahmen dieser Arbeit behandelten Moleküle lassen sich alle relativ<br />

schnell berechnen und daher spielt die Zeit keine kritische Rolle. Somit wird auf die Im-<br />

50<br />

Abb. 3.4.1: Algorithmus für die Berechnung der Isotopenverteilung<br />

eines Moleküls


plementierung des <strong>von</strong> Rockwood et al. entwickelten Algorithmus zugunsten des einfacheren<br />

Multi-Nomial-Algorithmus verzichtet.<br />

Leider gibt es auch Fälle, bei denen keine Informationen über die Molekülstruktur vorhanden<br />

sind und somit eine chemische Formel nicht vorliegt. Eine Berechnung der Isotopenverteilung<br />

ist da nicht mehr möglich und es muss somit ein anderer Weg eingeschlagen werden, um die<br />

Peaks zu simulieren.<br />

Bei den Untersuchungen der Isotopenverteilung hat sich gezeigt, dass sich mit zunehmender<br />

Molekülgröße die Isotopenkurve immer mehr einer Gauß-Kurve nähert. Es würde sich also<br />

anbieten, die Peaks näherungsweise durch eine Gauß-Funktion darzustellen. Die Position der<br />

Funktion ist durch den m/z-Wert bestimmt, die Intensität durch die Intensität des Spektrums<br />

am jeweiligen m/z-Wert bzw. durch die Hüllkurve I(z), falls diese schon bestimmt ist. Der<br />

einzige fehlende Parameter ist die Halbwertsbreite. Diese könnte man bestimmen, indem man<br />

eine gedachte Linie auf halber Höhe legt, welche das Spektrum links und rechts schneidet.<br />

Der Abstand der beiden Punkte entspricht dann der Halbwertsbreite. Dieser Weg hat sich allerdings<br />

als nicht praktikabel erwiesen. Das Hauptproblem hierbei ist, dass es Massen im<br />

Spektrum geben kann, welche gar nicht als Peak in Erscheinung treten, d.h. die gedachte Linie<br />

schneidet das Spektrum nie.<br />

Als weitaus bessere Lösung bietet es sich an, die Summenformel abzuschätzen, um mit dieser<br />

in den Algorithmus für die Berechnung der Isotopenverteilung zu gehen. Für die Bestimmung<br />

der durchschnittlichen Aminosäure haben Senko et al. die statistische Verteilung der Aminosäuren<br />

in der PIR <strong>Protein</strong> Datenbank untersucht. Dabei sind sie auf folgende Summenformel<br />

gekommen: [Senko95]<br />

C4,9384H7.7583N1,3577O1,4773S0,0417 (3.4.11)<br />

Hiermit erhält man für die durchschnittliche Masse einer Aminosäure 111,1254D. Ausgehend<br />

da<strong>von</strong> lässt sich für eine gegebene Molekülmasse die Anzahl der Aminosäuren und damit die<br />

Anzahl jedes oben erwähnten Atoms berechnen. Für große Moleküle (ab 6000D) stimmt die<br />

geschätzte Summenformel sehr gut mit der tatsächlichen überein. Denn bei einem Molekül<br />

mit z.B. 1000 C-Atomen spielen 50 C-Atome mehr oder weniger für die resultierende Isotopenverteilung<br />

kaum eine Rolle. Da hier Glykoproteine ab 10kD betrachtet werden, ist die<br />

Nährung folglich unproblematisch, d.h. die geschätzte Isotopenverteilung ist zur tatsächlichen<br />

sehr ähnlich.<br />

In Abb. 3.4.2 ist die Isotopenverteilung <strong>von</strong> vier Spezies dargestellt.<br />

51


3.5. Simulation der Peakverbreiterung<br />

Die Isotopenverteilung allein reicht nicht aus, um einen Peak im gemessenen Spektrum zu simulieren.<br />

Es fehlt noch eine wichtige Komponente, nämlich die durch das ESI-MS-Gerät verursachte<br />

auflösungsabhängige Verbreiterung der Peaks [Chapman92].<br />

Um die Verbreiterung zu simulieren, wird auf jede Masse, welche man aus der Isotopenverteilung<br />

erhält, eine Gauß-Kurve GAUSS(x;a,b,c) gelegt, wobei a die Amplitude ist, b der Mittelpunkt<br />

und c der Streuungsparameter.<br />

52<br />

Abb. 3.4.2: Spektrum eines Antikörpers, aufgenommen<br />

bei einer Auflösung <strong>von</strong> R=5000. Es ist<br />

die Isotopenverteilung <strong>von</strong> vier im Spektrum vorkommenden<br />

schweren Ketten dargestellt. Man<br />

sieht, dass die Isotopenverteilung sehr gut mit<br />

dem gemessenen Signal übereinstimmt. Die Verbreiterung<br />

am Sockel der Signalpeaks ist durch<br />

Addukte verursacht, welche hier nicht dargestellt<br />

sind.<br />

Abb. 3.5.1: Theoretische Peakform bei<br />

verschiedenen ESI-MS-Auflösungen für<br />

ein einfach geladenes Molekül.<br />

2<br />

⎛<br />

⎞<br />

⎜<br />

1 ⎛ x − b ⎞<br />

GAUSS ( x;<br />

a,<br />

b,<br />

c)<br />

= a exp − ⎟<br />

⎜<br />

⎜ ⎟<br />

(3.5.1)<br />

⎟<br />

⎝<br />

2 ⎝ c ⎠ ⎠<br />

Die Faltung aller Gauß-Kurven ergibt dann die beobachtete Peakform. Die Position jeder<br />

Gauß-Verteilung ist durch den m/z-Wert der zugehörigen Isotopenmasse festgelegt. Ebenso<br />

verhält es sich mit der Amplitude, welche durch die Häufigkeit der korrespondierenden Isotopenkombination<br />

determiniert wird. Als einziger Parameter muss noch die Breite der Gauß-<br />

Kurve bestimmt werden. Dazu verwendet man die Rayleigh’sche Definition <strong>von</strong> Auflösung.


Der Zusammenhang zwischen Auflösung R, Halbwertsbreite FWHM und m/z-Wert eines monoisotopischen<br />

Peaks ist folgender:<br />

m / z<br />

R =<br />

FWHM<br />

m / z<br />

⇒ FWHM =<br />

R<br />

(3.5.2)<br />

Um die Halbwertsbreite der Gauß-Funktion zu bestimmen, müssen diejenigen x Punkte bestimmt<br />

werden, bei denen die Gauß-Funktion die halbe Höhe annimmt. Anschließend wird die<br />

Differenz der Punkte gebildet und man erhält die Halbwertsbreite.<br />

2<br />

⎛ 1 x0<br />

b ⎞ 1<br />

a exp⎜ ⎛ − ⎞<br />

− ⎜ ⎟ ⎟ = f ( xmax<br />

)<br />

(3.5.3)<br />

⎜ 2 c ⎟<br />

⎝ ⎝ ⎠ ⎠<br />

2<br />

Die maximale Höhe f(xmax)=a erhält man, wenn man für xmax, den Mittelpunkt b einsetzt:<br />

2<br />

⎛ x b ⎞<br />

a ⎜<br />

1 ⎛ 0 − ⎞<br />

⎟ ⎟<br />

1<br />

exp − ⎜ =<br />

⎜ c ⎟<br />

⎝<br />

2 ⎝ ⎠ ⎠<br />

2<br />

2<br />

⎛ x b ⎞<br />

a ⎜<br />

1 ⎛ 0 − ⎞<br />

⎟ ⎟<br />

1<br />

exp − ⎜ =<br />

⎜ c ⎟<br />

⎝<br />

2 ⎝ ⎠ ⎠<br />

2<br />

1 ⎛ x0<br />

− b ⎞<br />

− ⎜ ⎟<br />

2 ⎝ c ⎠<br />

x<br />

= ± c<br />

2ln(<br />

2)<br />

⎛ 1 ⎞<br />

= ln⎜<br />

⎟<br />

⎝ 2 ⎠<br />

2<br />

− ( x0<br />

− b)<br />

= −ln(<br />

2)<br />

2<br />

2c<br />

( x<br />

2<br />

− b)<br />

2<br />

= 2c<br />

ln( 2)<br />

0<br />

1/<br />

2<br />

2<br />

+ b<br />

f ( b)<br />

a<br />

(3.5.4)<br />

Den Zusammenhang zwischen Halbwertsbreite FWHM und Streuungsparameter c erhält man,<br />

indem die Differenz der beiden Punkte gebildet wird:<br />

FWHM = x − x = 2 2ln(<br />

2)<br />

c = 2.<br />

354820044c<br />

FWHM<br />

⇒ c =<br />

2.<br />

354820044<br />

2<br />

1<br />

(3.5.5)<br />

Nun hat man alle Parameter beisammen, um für jeden Peak die Verbreiterung zu berechnen.<br />

Die Faltung muss für jeden Peak (Ladungszustand einer Masse) neu berechnet werden, weil<br />

53


die Peakbreite nicht konstant ist. Sie ist nichtlinear vom Ladungszustand abhängig (vgl. Abb.<br />

3.5.2).<br />

3.6. Curve-Fitting<br />

Die Peaks einer Serie sind oft durch andere Peaks überlagert. Das macht eine Identifizierung<br />

der tatsächlichen Signalhöhe problematisch. Man kann sich aber die Tatsache zu Nutze machen,<br />

dass die Hüllkurve jeder Serie einer stochastischen Verteilung folgt. Sofern man die<br />

Verteilung kennen würde, wäre es ein Leichtes, die Intensitäten an den überlappenden Peaks<br />

zu berechnen.<br />

Wie in Kap. 2.3. bereits erläutert, liegen die Analyten in mehreren Konformationen vor, wobei<br />

jede einer eigenen Ladungsverteilung Bi(z) folgt. Die Summe aller Basisfunktionen ergibt die<br />

im Spektrum beobachtete Hüllkurve I(z): [Dobo01]<br />

54<br />

n<br />

∑<br />

i=<br />

1<br />

I ( z)<br />

= B ( )<br />

(3.6.1)<br />

i z<br />

Abb. 3.5.2: Zusammenhang zwischen Peakbreite eines<br />

monoisotopischen Peaks und Ladungszustand. Als Masse<br />

wurde 50kD gewählt und als Geräteauflösung wurde<br />

5000 gesetzt. Mit steigender Ladung (z) nimmt die Peakbreite<br />

(FWHM) ab.<br />

Die durchschnittliche Ladung jeder Basisfunktion (die Position des Maximums <strong>von</strong> Bi(z)) ist<br />

für die Konformation bzw. Oberflächenzugänglichkeit des Analyten charakteristisch. Die<br />

Breite (Standardabweichung <strong>von</strong> Bi(z)) entspricht der Heterogenität der Konformation.<br />

Schwach strukturierte (große Oberfläche) <strong>Protein</strong>e erzeugen höhere Ladungszustände als stark<br />

strukturierte (kleine Oberfläche). Der Grund dafür ist, dass bei schwach strukturierten <strong>Protein</strong>en<br />

die Oberfläche größer ist und somit für die Anlagerung größerer Ladungsmengen zugänglicher<br />

ist. Bei stark strukturierten <strong>Protein</strong>en ist die Oberfläche geringer und dadurch können<br />

während der Ionisierung nicht so viele Ladungsträger aufgenommen werden, da die elektrosta-


tische Abstoßung zu groß ist. Die genauen Mechanismen, welche dahinter stecken, sind aber<br />

noch nicht bekannt. [Šamalikova03]<br />

Um die Anzahl relevanter Basisfunktionen (Faltungszustände des Analyten) zu bestimmen,<br />

müsste man mehrere Experimente bei unterschiedlichen Pufferbedingungen durchführen [Dobo03].<br />

Man könnte z.B. Aufnahmen bei verschiedenen pH-Werten tätigen und beobachten,<br />

wie sich die Hüllkurve abhängig vom pH-Wert ändert. Eine Automatisierung dieses Schrittes<br />

ist möglich. So können bei einer Singulärwert-Dekomposition (SVD) der Messreihen, die Anzahl<br />

relevanter Singulärwerte bestimmt werden, welche der Anzahl Basisfunktion entsprechen<br />

[Dobo01]. Dieser Ansatz kann hier nicht angewendet werden, weil nicht da<strong>von</strong> ausgegangen<br />

werden kann, dass für jede <strong>Analyse</strong> ein Dutzend Aufnahmen gemacht werden. Vielmehr wird<br />

dem Anwender die Freiheit gelassen, durch sein fachliches Wissen selbst zu bestimmen, wie<br />

viele relevante Faltungszustände vorhanden sind. Als Faustregel kann man jedoch sagen, dass<br />

eher weniger als mehr Basisfunktionen benutzt werden sollen. Ursache hierfür ist, dass mit<br />

steigender Zahl an Basisfunktionen das Modell natürlich immer besser erklärt werden kann.<br />

Teilweise kann es sogar passieren, dass es keine eindeutige Lösung für die Faltung gibt. Somit<br />

ist die physikalische Aussagekraft dann doch eher zu bezweifeln. Bei Verwendung weniger<br />

Basisfunktionen sinkt zwar die Qualität des Fittings, die Aussagekraft jedoch ist wesentlich<br />

stärker, da es jetzt viel besser die wahre Natur der Hüllkurve widerspiegelt.<br />

Speziell bei Antikörpern kann man zu der Zahl relevanter Funktionen folgende Annahme machen:<br />

Die leichte Kette besitzt zwei homologe Einheiten VL und CL. Die schwere Kette besitzt<br />

vier homologe Einheiten VH, CH1, CH2 und CH3, wobei die C-Domänen viel ähnlicher untereinander<br />

sind als zur V-Domäne. Jede dieser Einheit verfügt über eine interne Disulfidbindung<br />

(vgl. Abb. 2.2.2). Um die Ionsierungsfähigkeit zu verbessern, werden den Proben Detergenzien<br />

zugeführt. Dies hat zur Folge, dass es zu zufälligen Trennungen der Disulfidbindungen<br />

kommt, d.h. es bilden sich verschiedene Faltungszustände. Die leichte Kette z.B. kann eine,<br />

zwei oder gar keine offene Disulfidbindung(en) haben. Es gibt also drei echte Zustände. Für<br />

ein Fitting der Hüllkurve reichen zwei Basisfunktionen völlig aus, weil die Variante mit zwei<br />

offenen Bindungen selten ist und damit nicht ins Gewicht fällt. Bei der schweren Kette sind<br />

mehr Konformationen möglich, wobei auch hier die meisten da<strong>von</strong> nicht ins Gewicht fallen,<br />

weil sie ähnlich verteilen. Drei Basisfunktionen sind somit völlig ausreichend. Diese Annahme<br />

beruht auf Erfahrungswerten. Für einen Beweis dieses Sachverhalts müssten weitere <strong>Analyse</strong>n<br />

durchgeführt werden.<br />

Das Fitting kann nur so gut sein wie das Modell, welches hierzu benutzt wird. Deswegen ist<br />

es <strong>von</strong> entscheidender Bedeutung, ein Modell zu wählen, welches die wahre Natur des Phänomens<br />

möglichst gut beschreibt. Für die hier untersuchten Glykoproteine wird eine Gauß-<br />

Verteilung als Basisfunktion angenommen. Diese hat sich in der Praxis als tauglich erwiesen,<br />

weil sie den physikalischen Verteilungsprozess sehr gut widerspiegelt.<br />

55


Um die Parameter der Basisfunktionen zu finden, welche der Hüllkurve zugrunde liegen, wird<br />

folgendermaßen vorgegangen: Als erstes wird eine Datenliste erstellt, welche alle freien Peaks<br />

der untersuchten Spezies enthält. Freie Peaks sind all diejenigen, welche nicht durch Peaks<br />

anderer Massen überlagert werden. Um auch extreme Fälle noch gut behandeln zu können,<br />

werden auch Peaks herangezogen, welche überlappen, wobei die Überlappung nicht mehr als<br />

5% der Peakintensität einnehmen darf. Beim Fitting sind nichtlineare Transformationen der<br />

Daten nicht zulässig, da sie das Ergebnis verfälschen. Folglich kann beim Fitten nicht mit der<br />

m/z-Skala gearbeitet werden, weil die Transformation <strong>von</strong> I(z) nach I(m/z) nicht linear ist, d.h.<br />

die m/z-Werte der Datenpunkte müssen auf z-Werte umgerechnet werden. Mit diesen Datenpunkten<br />

wird anschließend ein Fitting der Basisfunktionen durchgeführt. Um genauer zu sein:<br />

es werden die Parameter gefittet. Im Falle der Gauß-Funktion sind diese Mittelpunkt, Amplitude<br />

und FWHM.<br />

3.6.1. Levenberg-Marquardt-Algorithmus<br />

Für das Fitting der Basisfunktionen auf die Datenpunkte gibt es eine große Zahl an Algorithmen.<br />

Jedoch kommen nicht alle da<strong>von</strong> in Frage. Es gibt zwei Klassen an Fitting-Algorithmen:<br />

lineare und nichtlineare. Die erste Klasse scheidet für das hiesige Problem aus, weil es nicht<br />

linear ist. Folglich muss ein Algorithmus der nichtlinearen Fitting Klasse verwendet werden.<br />

Zunächst wurde die „Downhill Simplex“-Methode für Multidimensionen, entwickelt <strong>von</strong><br />

Nelder und Mead, betrachtet. Diese wurde auch <strong>von</strong> [Dobo01] verwendet, welche mittels Entfaltung<br />

der Hüllkurve Konformationsanalysen <strong>von</strong> <strong>Protein</strong>en durchgeführt haben. In einigen<br />

Tests mit einfachen Daten erwies sich dieser Algorithmus jedoch als ungeeignet, weil bei fast<br />

allen Läufen der Algorithmus gar nicht konvergiert hat.<br />

Als Alternative kam der Levenberg-Marquardt-Algorithmus in Frage, welcher als einer der<br />

Standard-Algorithmen im Fitting-Bereich gilt. Dieser hat sich bei den ersten Versuchen mit<br />

Testdaten als robuster entpuppt. Eine später vorgenommene Untersuchung mit synthetischen<br />

Daten zeigt ebenfalls, dass man mit dem LM-Algorithmus gute Ergebnisse erzielt (vgl. Kap.<br />

4). Deshalb fällt die Wahl für eine Fitting-Methode auf den LM-Algorithmus. Im Folgenden<br />

wird die prinzipielle Idee des LM-Algorithmus erläutert. Wegen der Komplexität des Verfahrens<br />

kann nicht auf alle Details eingegangen werden. Den interessierten Leser verweise ich auf<br />

[Madsen04], welcher eine überaus detaillierte Beschreibung des LM-Algorithmus gibt.<br />

Beim nichtlinearen Fitting und somit auch beim LM-Algorithmus wird eine Kostenfunktion<br />

minimiert, welche folgende Form hat:<br />

56


F<br />

1<br />

2<br />

m<br />

∑<br />

i=<br />

1<br />

( x)<br />

= ( f ( ) )<br />

i x<br />

2<br />

Die zu optimierenden Parameter sind im Vektor x ( x x ,..., x )<br />

1,<br />

2<br />

n<br />

(3.6.1.1)<br />

= abgelegt. Bei<br />

n<br />

f : ℜ a ℜ,<br />

i = 1,...,<br />

m ∧ m ≥ n handelt es sich um die Residuenfunktion. Sei das Fitting-<br />

i<br />

Modell M(x,t), dann ist fi(x)=yi-M(x,ti). Um die Darstellung zu vereinfachen, wird der Vektor<br />

f(x)=(f1(x),f2(x),…,fm(x)) definiert und man erhält:<br />

F<br />

m 1 1 1 T<br />

= ∑ i<br />

2 i=<br />

1 2 2<br />

2<br />

2<br />

( x)<br />

( f ( x)<br />

) = f ( x)<br />

= f ( x)<br />

f ( x)<br />

(3.6.1.2)<br />

Es wird angenommen, dass die Kostenfunktion 2fach differenzierbar und glatt ist, so dass die<br />

folgende Taylor-Approximation anwendbar ist:<br />

F<br />

T ' 1 T ''<br />

3<br />

( x h)<br />

= F(<br />

x)<br />

+ h F ( x)<br />

+ h F ( x)<br />

h + O(<br />

h )<br />

+ (3.6.1.3)<br />

2<br />

Damit berechnet man die Kosten, wenn vom aktuellen Parametervektor x um h:=t-x „Schritte“<br />

nach x+h gegangen wird. Die O-Notation am Ende der Gleichung, zeigt wo die Taylor-<br />

Reihe abgeschnitten wurde. Hier betrifft dies alle Terme dritter Ordnung oder höher – diese<br />

werden ignoriert, da sie nicht signifikant sind. Die erste Ableitung F ’ (x) entspricht dem Gradienten<br />

g(x) und die zweite Ableitung F ’’ (x) der Hesse-Matrix H(x). Sei x * ein lokales Minimum,<br />

dann gilt: g(x)=F ’ (x * )=0. Dies ist eine notwendige, aber nicht ausreichende Bedingung:<br />

Die erste Ableitung ergibt auch für Sattelpunkte Null. Um eine ausreichende Bedingung zu<br />

erhalten, muss zusätzlich gelten, dass die zweite Ableitung ungleich Null ist, d.h. H(x)=F ’’ (x * )<br />

ist positiv definit. Falls H(x) negativ definit wäre, hätte man ein lokales Maximum gefunden.<br />

Bei der nichtlinearen Optimierung wird iterativ vorgegangen. Mit jedem Schritt <strong>von</strong> xk nach<br />

xk+1 wird F(xk) minimiert, d.h. F(xk)>F(xk+1). Optimalerweise hat man eine Methode, welche<br />

abhängig vom aktuellen Gradienten kleine bzw. große Schritte h durchführt. Ist der Gradient<br />

klein, sollten große Schritte gemacht werden, ist der Gradient hingegen groß, sind kleine<br />

Schritte wünschenswert. Dies soll bewirken, dass man in einem kleinen Tal (schlechtes lokales<br />

Minimum) nicht hängen bleibt und zum anderen, dass man ein gutes lokales Minimum<br />

nicht übersieht. Wenn h klein ist, kann man f durch eine Taylor-Reihe approximieren:<br />

2<br />

f ( x + h)<br />

= f ( x)<br />

+ J ( x)<br />

h + O(<br />

h ) ≅ l(<br />

h)<br />

≡ f ( x)<br />

+ J ( x)<br />

h<br />

(3.6.1.4)<br />

J steht für die Jakobi-Matrix:<br />

57


58<br />

⎛ df1<br />

⎜<br />

⎜ dx1<br />

J ( x)<br />

= ⎜ ...<br />

⎜ df m<br />

⎜<br />

dx<br />

⎝ 1<br />

...<br />

...<br />

...<br />

df1<br />

⎞<br />

⎟<br />

dxn<br />

⎟<br />

... ⎟<br />

dfm<br />

⎟<br />

dx<br />

⎟<br />

n ⎠<br />

Setzt man Gl. (3.6.1.4) in die Definition <strong>von</strong> (3.6.1.2) ein, so erhält man:<br />

1 T<br />

F(<br />

x + h)<br />

≅ L(<br />

h)<br />

≡ l(<br />

h)<br />

l(<br />

h)<br />

2<br />

1 T<br />

T T 1 T T<br />

= f(x) f(x) + h J ( x)<br />

f(x) + h J ( x)<br />

J ( x)<br />

h<br />

2<br />

2<br />

T T 1 T T<br />

= F(<br />

x)<br />

+ h J ( x)<br />

f(x) + h J ( x)<br />

J ( x)<br />

h<br />

2<br />

(3.6.1.5)<br />

(3.6.1.6)<br />

Es ist derjenige Parameterschritt h gesucht, welcher L(h) minimiert: = argmin { L(<br />

h)}<br />

. Um<br />

h zu finden, werden zunächst der Gradient und die Hesse-Matrix bestimmt:<br />

'<br />

g(<br />

x)<br />

= L ( h)<br />

= J ( x)<br />

''<br />

H ( x)<br />

= L ( h)<br />

= J ( x)<br />

T<br />

f ( x)<br />

+ J ( x)<br />

T<br />

J ( x)<br />

T<br />

J ( x)<br />

h<br />

h h<br />

(3.6.1.7)<br />

Man sieht, dass L ’’ (h) unabhängig <strong>von</strong> h ist. L ’’ (h) ist symmetrisch und wenn die Jacobi-<br />

Matrix J vollen Rang hat, d.h. die Spalten <strong>von</strong> J sind linear unabhängig, dann ist F ’’ (h) positiv<br />

definit. Der Schritt h, welcher die Kostenfunktion minimiert, kann gefunden werden, indem<br />

T<br />

T<br />

L ' ( h)<br />

= 0 ⇒ J ( x)<br />

J ( x)<br />

h = −J<br />

( x)<br />

f gelöst wird. Der LM-Algorithmus löst eine leichte<br />

opt<br />

T<br />

T<br />

Variation da<strong>von</strong>, nämlich: ( J ( x)<br />

J ( x)<br />

+ µ I ) h = −J<br />

( x)<br />

f . Der zusätzliche Parameter µ wird<br />

opt<br />

als „Dämpfungsfaktor“ verwendet. Ist µ>0, so ist die Koeffizienten-Matrix positiv definit und<br />

somit zeigt hopt in eine absteigende Richtung. Für große Werte <strong>von</strong> µ wird ein kleiner Schritt<br />

durchgeführt. Kleine µ Werte hingegen kommen am Ende der Optimierung zum Tragen, wenn<br />

der gesuchte Parametervektor nahe am Optimum ist. Der Dämpfungsparameter wird bei jedem<br />

Iterationsschritt angepasst, damit sichergestellt ist, dass die Kostenfunktion minimiert<br />

wird. Ein weiterer Vorteil der Einführung dieses Parameters ist, dass Situationen in denen<br />

J(x) T J(x) singulär wird, abgefangen werden. Sobald hopt bestimmt ist, wird der neue Parame-<br />

tervektor x gesetzt: x : = x + αhopt<br />

. Der Algorithmus ist in Abb. 3.6.1.1 zusammengefasst.


Beim Least-Squares-Fitting wird die Summe der Quadrate der Residuen minimiert. Dieser<br />

Mechanismus funktioniert nicht bzw. nur unzureichend, wenn starke Ausreißer vorhanden<br />

sind. Das Quadrat der Residuen führt in dem Bereich des Ausreißers dazu, dass die gefittete<br />

Kurve sich weit vom Optimum entfernt. Ein anderer Problemfall ist gegeben, wenn die y-<br />

Daten sich über mehrere Größenordnungen erstrecken. Hier kann das Quadrat der Residuen<br />

der größten y-Daten die Residuen der kleineren y-Daten überragen mit dem Ergebnis, dass die<br />

kleinen Werte nur schlecht oder gar nicht gefittet werden. Diese Punkte werden in den Kapiteln<br />

3.6.3. und 3.6.4. behandelt.<br />

Zunächst wird die Implementierung aus [NR] für den unbeschränkten LM-Algorithmus benutzt.<br />

Dieser erweist sich jedoch als nicht robust genug. Beim Testen mit synthetischen Daten<br />

kam es fast immer zur Bildung einer Singulärmatrix (bei der Gauss-Jordan-Elimination),<br />

wenn die Startparameter ungünstig gewählt sind, d.h. die Fitting-Methode brach ab. Ein weiteres<br />

Problem ist, dass die Implementierung nur sehr spartanisch ist, d.h. viele Entwicklungen,<br />

welche seit der Veröffentlichung des urspr. Algorithmus 1963 bekannt sind, sind nicht in den<br />

Code eingegangen. Somit eignet sich diese Variante nicht, um das hiesige Problem zu lösen.<br />

Stattdessen wird auf den <strong>von</strong> Manolis Lourakis implementierten LM-Algorithmus gesetzt.<br />

Dieser bietet neben der Beseitigung vorhin genannter Mängel auch die wichtige Option an,<br />

Randbedingungen für die Parameter bzw. die Gleichungen zu setzen. Eine sehr wichtige Eigenschaft<br />

im Hinblick auf die Optimierung des Fittings.<br />

3.6.2. Güteparameter<br />

Abb. 3.6.1.1: Skizze des LM-Algorithmus. Er<br />

stoppt, wenn eine der folgenden Bedingungen<br />

erfüllt ist:<br />

• die maximale Zahl kmax an Iterationen<br />

ist erreicht,<br />

• die Ordnung <strong>von</strong> g ist kleiner ε1,<br />

• die Änderung <strong>von</strong> hlm ist kleiner ε2.<br />

Als Werte werden für ε 10 -15 gesetzt und für<br />

kmax 3000.<br />

Um die Güte eines Fittings zu bestimmen und somit verschiedene Fittings miteinander zu<br />

vergleichen, bedarf es eines Maßes. Ein gebräuchliches Maß ist das Bestimmtheitsmaß:<br />

59


60<br />

2<br />

R =1 −<br />

SSE<br />

SSM<br />

(3.6.2.1)<br />

SSE ist die Summe der quadratischen Fehler, d.h. die Summe der Residuen zum Quadrat.<br />

SSM ist die Summe der Quadrate über das arithmetische Mittel (vgl. Abb. 3.6.2.1). Wenn R²<br />

den Wert 1 einnimmt, dann ist der Fit perfekt. Je näher an Null der Wert kommt, desto<br />

schlechter ist der Fit. In extremen Fällen kann der Wert sogar negativ werden, d.h. das Modell<br />

beschreibt die Daten schlechter, als eine Linie durch das arithmetische Mittel. Seien beispielsweise<br />

folgende Daten gegeben:<br />

X Beobachtet Erwartet Residuen²<br />

(Residuen über arithmethisches<br />

Mittel)²<br />

1 1,09 1,00 0,008 0,795<br />

2 1,34 1,41 0,005 0,410<br />

4 1,70 2,00 0,089 0,079<br />

6 2,54 2,45 0,008 0,311<br />

10 3,24 3,16 0,005 1,576<br />

Summiert man die quadratischen Fehler, erhält man SSE=0,12. Das arithmetische Mittel beträgt<br />

1,98. Damit erhält man SSM=3,17. Mit obiger Formel erhält man schließlich für das Bestimmtheitsmaß<br />

R² einen Wert <strong>von</strong> 0,96. Dies ist ein sehr guter Wert.<br />

Abb. 3.6.2.1: Links sind die Residuen für das gefittete Modell (rote Kurve) zu sehen (SSE). Rechts sind die Residuen<br />

über das arithmetische Mittel der Punkte dargestellt (SSM).<br />

Als weiteres Kriterium, um über die Güte eines Fits zu entscheiden, können die Vertrauens-<br />

Intervalle der Parameter betrachtet werden. Je nach Anwendung kommen 90%-, 95%- oder<br />

99%-Vertrauensintervalle in Frage. Das Intervall sagt aus, dass der gesuchte wahre Parameter<br />

zu 90%, 95% bzw. 99% in dem angegebenen Intervall liegt. Am gebräuchlichsten ist das<br />

95%-Vertrauensintervall, welches auch im Rahmen dieser Arbeit verwendet wird.<br />

Die Vertrauensintervalle lassen sich direkt aus der Kovarianz-Korrelations-Matrix Cov der<br />

Parameter berechnen, welche <strong>von</strong> den meisten Fitting-Algorithmen mit als Ergebnis zurück-


geliefert werden: Auf der Diagonale der Matrix befinden sich die Eigenkorrelationen jedes Parameters.<br />

Zieht man <strong>von</strong> diesen Werten die Wurzel, so erhält man den Standardfehler SEi je-<br />

des Parameters Parami, d.h. SE i = Covii<br />

. Damit kann nun das Intervall berechnet werden:<br />

[Motulsky]<br />

CI = Param ± TI�V ( 0.<br />

05,<br />

DOF)<br />

* SE<br />

(3.6.2.2)<br />

i<br />

i<br />

i<br />

DOF steht für die Anzahl der Freiheitsgrade und berechnet sich aus der Differenz der Anzahl<br />

Datenpunkte minus der Anzahl zu bestimmender Parameter. Die Funktion TINV berechnet<br />

den T-Wert der Student-Verteilung als eine Funktion der Wahrscheinlichkeit und des Freiheitsgrads.<br />

Betrachtet man den R² Wert zusammen mit den Vertrauensintervallen der Parameter, kann<br />

nun eine sehr gute Aussage über die Qualität des Ergebnisses gemacht werden. Der R² Wert<br />

allein sagt zwar aus, wie gut die gefittete Kurve sich den Punkten nähert, jedoch kann man allein<br />

daraus nicht herauslesen, ob die gefundenen Parameter die einzige richtige Lösung darstellen<br />

oder nicht. Anhand der Vertrauensintervalle lässt sich jedoch diese Frage beantworten.<br />

Sind nämlich die Intervalle CIi eng, so spiegelt dies einen sehr guten Fit wieder, sind sie breit,<br />

so kann man da<strong>von</strong> ausgehen, dass man eine <strong>von</strong> vielen möglichen Lösungen gefunden hat,<br />

d.h. je kleiner die Intervalle, desto besser sind die Parameter durch die Datenpunkte definiert.<br />

3.6.3. Optimierung des Fittings<br />

Bei den im Rahmen dieser Arbeit untersuchten Spektren ist häufig der Fall, dass die y-Werte –<br />

die Intensitäten – sich über mehrere Größenordnungen erstrecken. Zum Beispiel kommt es oft<br />

vor, dass eine Masse sich über einen Bereich <strong>von</strong> etwa 500 „Counts“ erstreckt, eine andere<br />

über etwa 2000 „Counts“ und wieder eine andere kann sich über bis zu 20.000 „Counts“ erstrecken.<br />

Solche Fälle entstehen beispielsweise bei der Messung reduzierter Antikörper.<br />

Die Variation bei den Antikörpern ist i.d.R. nur auf der schweren Kette vorhanden. Die leichte<br />

Kette hingegen ist bei allen Spezies identisch. Folglich kommt es bei den Peaks der leichten<br />

Ketten zu sehr hohen „Counts“, da die leichten Ketten aller in der Probe befindlichen Antikörper<br />

zusammen zur Signalstärke beitragen. Dies hat zwei negative Folgen: Die erste ist,<br />

dass ein Fitting über einen so großen Raum mit mehr Rechenzeit verbunden ist. Folglich ist<br />

eine befriedigende Konvergenz oft noch nicht abgeschlossen, wenn die maximale Anzahl an<br />

Iterationen erreicht ist. Die zweite betrifft die Vergleichbarkeit verschiedener Hüllkurven.<br />

Dies ist relevant, sofern Ergebnisse verschiedener Experimente verglichen werden sollen.<br />

61


Um diese Probleme zu umgehen, werden die Daten auf der y-Skala linear transformiert: Sie<br />

werden auf einen Bereich <strong>von</strong> 0% bis 100% normalisiert. Diese Art der Normalisierung beeinflusst<br />

nicht das Fitting-Ergebnis. Eine nichtlineare Transformation hingegen verändert die<br />

relativen Positionen der Datenpunkte. Beim Fitten äußert sich das dadurch, dass eine andere<br />

Funktion gefunden wird, welche χ² minimiert (vgl. Abb. 3.6.3.1). Es werden also andere Parameter<br />

gefunden. [Motulsky]<br />

Als weitere Verbesserungsmaßnahme, werden für jeden Parameter Schranken gesetzt, d.h. es<br />

werden nur sinnvolle Parameterbereiche zugelassen. Dies hat zur Folge, dass der Suchraum<br />

und somit die notwendige Rechenzeit weiter verkleinert wird. Für die Glykoproteine haben<br />

sich folgende Schranken als sinnvoll erwiesen:<br />

62<br />

Abb. 3.6.3.1: Effekt einer nicht-linearen Transformation. In beiden Bildern ist die Hüllkurve eines Antikörpers mit einer<br />

Masse <strong>von</strong> ca. 50kD dargestellt (schwarze Linie). Links auf der z-Skala und rechts auf der m/z-Skala<br />

(m/z=(m+1.008z)/z). Rechts ist die Variante, wie man sie im Spektrum sehen würde. In beiden Fällen wurde ein LM-<br />

Fitting (rote Kurve) mit zwei Gauß-Funktionen (grau gestrichelte Kurven) durchgeführt. Auf der z-Skala hat der Fit<br />

perfekt geklappt und man erhält für die Hüllkurve I(z)=GAUSS(z,696,39,12.5)+GAUSS(z,1840,55,16.5). Auf der m/z-<br />

Skala hingegen gelingt das Fitting überhaupt nicht.<br />

• die Amplitude muss in einem Bereich zwischen 1 und 130 liegen,<br />

• der Mittelpunkt muss zwischen 5 und 95 liegen,<br />

• und die Halbwertsbreite muss in dem Bereich zwischen 2 und 17 liegen.<br />

Ein weiterer Faktor, der optimiert werden kann, betrifft die Initialisierung der Startparameter.<br />

Es ist empfehlenswert, diese nicht einfach auf den Wert 1 zu setzen. Ebenso sollten sie nicht<br />

auf einen anderen konstanten Wert gesetzt werden. Vielmehr sollte der Wert abhängig vom<br />

aktuellen Umfeld, dynamisch gewählt werden. Speziell für Glykoproteine werden die Startparameter<br />

wie folgt festgelegt: Die Amplitude wird auf einen 15% der maximalen Intensität gesetzt.<br />

Die Zentren der Basisfunktionen werden in gleichmäßigen Abständen auf der z-Skala<br />

verteilt. Für die Halbwertsbreite wird ein Wert <strong>von</strong> 4 vergeben.<br />

Wenn die zu fittende Funktion mehrere Minima hat, kann man nicht mit Sicherheit sagen,<br />

dass man das globale Minimum findet. Das gefundene Minimum hängt <strong>von</strong> den gewählten<br />

Startparametern ab. Als Lösung für dieses Problem werden fünf verschiedene Fittings mit jeweils<br />

maximal 5000 Iterationen durchgeführt. Nach jedem Fit-Lauf werden die Startparameter<br />

zufällig verändert. Am Ende werden diejenigen Parameter gewählt, welche den besten R²


Wert ergeben haben. Die Ausführung mehrerer Fit-Läufe mit unterschiedlichen Startparametern<br />

soll gewährleisten, dass man nicht fälschlicherweise in einem lokalen Minimum hängen<br />

bleibt.<br />

Beim Betrachten komplexer Spektren kann häufig das Problem auftreten, dass weniger Datenpunkte<br />

als Parameter vorhanden sind. In diesem Fall ist ein Fitting nicht durchführbar. Mit<br />

komplexen Spektren, sind solche Spektren gemeint, in denen viele Varianten einer Masse<br />

vorkommen, welche sich nur durch geringe Massendifferenzen unterscheiden. Ebenso sind<br />

Kombinationen, bei denen Massen <strong>von</strong> ungefähr halber Größe vorkommen, ungünstig, wie es<br />

z.B. bei reduzierten Antikörpern der Fall sein kann (leichte Kette ca. 25kD und schwere Kette<br />

ca. 50kD). Die Peaks dieser beschriebenen Fälle liegen im Spektrum entsprechend dicht beieinander<br />

und überlagern häufig gegenseitig. Dies führt dazu, dass wenige freie Peaks und somit<br />

wenige Punkte für das Fitting zu Verfügung stehen.<br />

Um diesem Problem gerecht zu werden, kann man folgende Annahme machen: Die Varianten<br />

einer Masse bzw. eines Glykoproteins haben eine sehr ähnliche Hüllkurve. Folglich kann man<br />

einen einmal bestimmten Satz an Parametern der Modellfunktion für die anderen Molekülvarianten<br />

wieder verwenden. Hierzu definiert man sich eine Masse als Hauptkomponente, welche<br />

für die anderen Varianten als Grundlage dienen soll. Das stellt kein Problem dar, da häufig<br />

eine Masse im Spektrum derart gut repräsentiert ist, dass deren Hüllkurve ohne weiteres<br />

gefittet werden kann.<br />

Eine alternative Lösung dazu ist es, zuerst die Hüllkurven derjenigen Massen zu bestimmen,<br />

welche über ausreichend freie Punkte verfügen. Anschließend kann die so gewonnen Informationen<br />

dazu genutzt werden, um sukzessive die Intensität überlappender Peaks zu bestimmen.<br />

Der Nachteil bei letzterem Verfahren ist, dass mit jedem Schritt ein gewisser Prozentsatz an<br />

Fehlern mit einfließt. Am Ende kann es dann passieren, dass die Peaks der letzten Massen nur<br />

sehr ungenau sind, so dass ein Fitting nicht das wahre Ergebnis liefert.<br />

3.6.4. Ausreißer<br />

Nach Optimierung des Fitting-Verfahrens sind beim Betrachten biologischer Daten Unregelmäßigkeiten<br />

in der Hüllkurve mancher Antikörpervarianten bzw. Massen aufgefallen. In Abb.<br />

3.6.4.1 sind die nicht überlappenden Peaks der Masse M1=48454,71D eines Antikörpers abgebildet.<br />

Ein Fitting der Hüllkurve ist hier nicht möglich, weil die Intensität in jedem zweiten<br />

Ladungszustand einen Ausschlag nach oben macht. Zunächst war nicht klar, woher dieses<br />

Verhalten herrührt. Folgende zwei Vermutungen lagen nahe: a) Es besteht ein Fehler im Programmcode<br />

b) eine nicht qualitativ erfasste Masse befindet sich im Spektrum.<br />

63


Möglichkeit a) konnte nach einem Blick auf das Spektrum ausgeschlossen werden, da hier<br />

deutlich zu sehen ist, dass die Intensität tatsächlich <strong>von</strong> einem Ladungszustand zum nächsten<br />

stark variiert. Außerdem sind bei allen m/z-Werten keine Überlagerungen mit bekannten Massen<br />

vorhanden. Diese Fakten deuten darauf hin, dass eine qualitativ nicht erfasste Masse im<br />

Spektrum vorhanden ist, welche an jeder zweiten Stelle mit der hier untersuchten Spezies der<br />

Masse M1 überlagert. Um diese Theorie zu bestätigen, muss zunächst die Masse der unbekannten<br />

Spezies ermittelt werden. Hierzu werden zwei beliebige nacheinander folgende Peaks<br />

(m/z)1 und (m/z)2 an den überlappenden Stellen betrachtet:<br />

64<br />

⎛ m ⎞<br />

⎜ ⎟<br />

⎝ z ⎠<br />

1<br />

⎛ m ⎞<br />

⎜ ⎟<br />

⎝ z ⎠<br />

2<br />

m + nm<br />

=<br />

n<br />

m + ( n + 1)<br />

m<br />

=<br />

n + 1<br />

⎢ ⎛ m ⎞<br />

⎢ ⎜ ⎟ − m +<br />

H<br />

⎢ ⎝ z ⎠2<br />

⇒ n =<br />

⎢⎛<br />

m ⎞ ⎛ m ⎞<br />

⎢⎜<br />

⎟ − ⎜ ⎟<br />

⎣⎝<br />

z ⎠1<br />

⎝ z ⎠<br />

⎛⎛<br />

m ⎞<br />

⇒ M = n ⎜<br />

⎜⎜<br />

⎟ − m<br />

⎝⎝<br />

z ⎠1<br />

H<br />

+<br />

H<br />

2<br />

H<br />

⎥<br />

⎥<br />

⎥<br />

⎥<br />

⎥<br />

⎦<br />

+<br />

+<br />

⎞<br />

⎟<br />

⎠<br />

Abb. 3.6.4.1: Die nicht überlappenden Peaks der<br />

Serie sind durch Kreuze repräsentiert. Die durchgezogene<br />

Kurve ist das Ergebnis eines Fittings mit<br />

zwei Basisfunktionen auf den gegebenen Punkten.<br />

(3.6.4.1)<br />

Für die Berechnung der Masse werden die Peaks bei (m/z)1=1010,45 und (m/z)2=1054,43<br />

verwendet. Dies ergibt eine Masse <strong>von</strong> M2=24228,71D, was auf eine Variante der leichten<br />

Kette hindeutet. Die Serie <strong>von</strong> M2 fällt exakt mit jedem zweiten Peak der Serie <strong>von</strong> M1 zusammen.<br />

Nun muss die unbekannte Masse nicht zwangsweise exakt auf M2 fallen. Eine kleine<br />

Abweichung da<strong>von</strong> würde immer noch zu einer Überlappung der Peaks im Spektrum führen.<br />

Die berechnete Masse M2 ist vielmehr ein Hinweis auf den Massenbereich, welcher betrachtet<br />

werden muss, um die tatsächliche Variante / Masse zu entdecken. Die leichte Kette des hier<br />

betrachteten Antikörpers besitzt eine Masse <strong>von</strong> MLK=24200,21D. Betrachtet man die mögli-


chen Modifikationen, so sieht man, dass nur Addukt-Signale in Frage kommen. Wie sich herausstellt,<br />

ist die gesuchte Masse, welche mit M1 im Spektrum überlappt, M3=24222,21D, eine<br />

Na-Addukt Variante <strong>von</strong> MLK. Im Spektrum wurde sie wahrscheinlich übersehen, weil es<br />

für jeden z-Wert in die Peaks <strong>von</strong> M1 reinfällt. Nachdem diese Addukt-Variante erfasst und im<br />

Programm eingetragen wird, verschwindet jeder zweite Punkt und ein Fitting der Hüllkurve<br />

ist möglich (vgl. Abb. 3.6.4.2).<br />

Abb. 3.6.4.2:<br />

Links: Gefittete Hüllkurve der Masse 48454,71D nach<br />

Erkennung der Ausreißer.<br />

Unten: Ausschnitt aus dem Spektrum <strong>von</strong> CD22. Die<br />

grüne Peakserie entspricht einer Varianten der schweren<br />

Kette mit einer Masse <strong>von</strong> 48454,71D. Die blaue<br />

Peakserie entspricht dem Na-Addukt der leichten Kette<br />

und hat eine Masse <strong>von</strong> 24222,21D. Man sieht wie<br />

in jedem zweiten Signal die beiden Massen überlagern.<br />

Nicht immer sind die Fälle so extrem wie der hier vorgestellte. Es kann durchaus vorkommen,<br />

dass es nur ein oder zwei Ausreißer gibt. Ebenso kann es sein, dass die Intensitätsunterschiede<br />

nicht so stark sind wie die hier gezeigten. Dies ist z.B. der Fall, wenn Addukt-Varianten der<br />

schweren Kette verantwortlich sind. Diese haben ja eine geringere Intensität im Spektrum und<br />

fallen dementsprechend nicht so stark auf bei Überlappungen.<br />

Da solche Addukt-Signale immer wieder vorkommen und nicht immer annotiert werden, ist<br />

eine Methode wünschenswert, welche automatisch erkennt, ob es sich bei den Punkten um<br />

Ausreißer handelt oder nicht:<br />

Von allen Massen werden die Addukt-Varianten simuliert. Da es bis zu einer n-fachen Anlagerung<br />

<strong>von</strong> Na + oder K + Ionen an ein Molekül kommen kann, wird die Zahl auf maximal zwei<br />

65


Ionisierungen beschränkt. Dies kann ohne Bedenken gemacht werden, weil mit zunehmender<br />

Zahl an Addukten die Wahrscheinlichkeit sinkt, dass sich solche bilden. Dementsprechend gering<br />

fällt die Intensität im Spektrum aus, d.h. meistens werden deren Signale im Spektrum<br />

eher untergehen. Im nächsten Schritt wird überprüft, ob die simulierten Addukt-Varianten mit<br />

den Peaks der Masse, dessen Hüllkurve bestimmt wird, überlagern. Falls diese überlagern,<br />

werden sie als Ausreißer markiert. Diese Variante hat sich als zu sensitiv herausgestellt. So ist<br />

die Zahl falsch positiver unverhältnismäßig groß.<br />

Für den zweiten Versuch die Ausreißer zu erkennen, wurde ein komplett anderer Weg eingeschlagen.<br />

Hierbei wird die Steigung als Kriterium verwendet. Die Idee ist folgende: Zunächst<br />

wird die y-Streuung der Punkte ermittelt und gespeichert. Als nächstes wird jeder Punkt der<br />

Hüllkurve betrachtet. Falls die Kurve links vom aktuell betrachteten Punkt steigt und rechts<br />

vom Punkt sinkt, und die Steigung einen <strong>von</strong> der Streuung abhängigen Schwellenwert überschreitet,<br />

wird der Punkt als Ausreißer markiert. Diese Variante hat sich im Vergleich zu erstgenannten<br />

als robuster erwiesen. Die Sensitivität kann anhand des Schwellenwerts erhöht<br />

oder verringert werden. Ein Nachteil hierbei ist, dass kein universeller Schwellenwert gesetzt<br />

werden kann. Für manche Spektren ist ein geringer Wert besser als ein hoher und bei anderen<br />

ist dieser Sachverhalt gerade umgekehrt.<br />

Die dritte Möglichkeit, welche ausprobiert wurde beruht auf der Annahme, dass die niedrigeren<br />

Punkte keine Ausreißer sind und die höheren Punkte eher Ausreißer darstellen können.<br />

D.h. wenn eine Verfälschung auftritt, dann durch Überlappung mit anderen Massen, was eine<br />

Steigerung der Signalintensität an entsprechender Stelle bewirkt. Zur Ausreißer-Erkennung<br />

wird wie folgt vorgegangen: Es wird eine Savitzky-Golay-Glättung der Datenpunkte durchgeführt<br />

mit einem Polynom 2ten Grades und 5 Datenpunkten als Fenstergröße. Man erhält dadurch<br />

eine Kurve, welche die Tendenz der Punkte aufzeigt. Alle Punkte die oberhalb der geglätteten<br />

Kurve liegen werden als Ausreißer markiert. In der Praxis hat sich diese Methode als<br />

die beste erwiesen und wird deshalb als automatische Erkennungsmethode in MF II angeboten.<br />

Neben den automatischen Erkennungsmechanismen, wird auch die Möglichkeit geboten, manuell<br />

Ausreißer zu bestimmen.<br />

66


4. Technische Umsetzung<br />

In diesem Kapitel wird die Entwicklungsumgebung kurz vorgestellt, wobei teilweise auch auf<br />

Implementierungsdetails eingegangen wird. Eine Beschreibung der Programmoberfläche <strong>von</strong><br />

Massfinder II lässt sich in Anhang C finden.<br />

Massfinder I, welches für die qualitative <strong>Analyse</strong> entwickelt wurde, ist komplett in der Skriptsprache<br />

Tcl/Tk geschrieben [ELehmann05]. Die Gründe hierfür lagen an den Möglichkeiten,<br />

schnell und einfach ein Programm zu entwickeln und zum anderen an der Tatsache, dass<br />

Tcl/Tk auf allen wichtigen Plattformen wie etwa Mac, Linux oder MS Windows eingesetzt<br />

werden kann.<br />

Eine der Hauptanforderungen war es, das existierende Programm durch Methoden für eine<br />

Quantifizierung zu erweitern. Eine komplette Neuentwicklung war also nicht erwünscht und<br />

somit stand die Vorgabe fest, Tcl/Tk als Programmiersprache zu verwenden.<br />

Abb. 4.1: Multi-Layer-Architektur <strong>von</strong><br />

Massfinder II.<br />

Der Aufbau <strong>von</strong> Massfinder II entspricht einer Multi-Schicht-Architektur (vgl. Abb. 4.1). Das<br />

Programm gliedert sich in eine Präsentationsschicht, eine Logikschicht und eine Persistenzschicht.<br />

In der Präsentationsschicht sind die Dialogdarstellung sowie die Dialogsteuerung eingebaut.<br />

Als Programmiersprache wird hierfür eine objektorientierte Variante <strong>von</strong> Tcl/Tk verwendet,<br />

nämlich incr Tcl (http://incrtcl.sourceforge.net/itcl/). Die Logikschicht ist in ANSI-C<br />

geschrieben und implementiert die Geschäftsprozesse sowie damit verbundenen Funktionen.<br />

Schließlich gibt es noch die Persistenzschicht, welche die Datenhaltung regelt und ebenfalls in<br />

ANSI-C programmiert ist. Als Dateiformat für die Daten wird der XML (Extended Markup<br />

Language) Standard verwendet.<br />

Damit man <strong>von</strong> Tcl aus auf ANSI-C Prozeduren zugreifen kann, wird eine Tcl Erweiterungs-<br />

Bibliothek (DLL) erzeugt, welche die notwendigen Funktionen enthält. Zentraler Punkt in der<br />

67


DLL ist die Methode DLLEXPORT int Masslib_Init (Tcl_Interp *interp) {…}, weil<br />

hier alle für incr Tcl zur Verfügung stehenden Kommandos registriert werden. An dieser Stelle<br />

wird also das Interface für die Verbindung zwischen der Präsentationsschicht und der Logikschicht<br />

definiert. Angenommen, man will eine ANSI-C Methode namens int<br />

advps_isotopedistr(ClientData data, Tcl_Interp *interp, int objc, Tcl_Obj<br />

*CONST objv[]) {…} im Interface bekannt geben, so dass die Methode in incr Tcl unter dem<br />

Namen isotope_distribution(…) zur Verfügung steht. Die Registrierung dieses Kommandos<br />

würde wie folgt durchgeführt werden:<br />

68<br />

Itcl_RegisterObjC (interp, "isotope_distribution",<br />

advps_isotopedistr, (ClientData)NULL,<br />

(Tcl_CmdDeleteProc *)NULL);<br />

Die Gründe für die logische Trennung des Codes in mehrere Schichten sind vielfältig. Zum<br />

einen spielen Faktoren wie Wiederverwendbarkeit, Flexibilität sowie Wartbarkeit eine Rolle<br />

und zum anderen die Performanz des Programms. Die Performanz ist deshalb <strong>von</strong> Bedeutung,<br />

weil Tcl nicht für intensive Rechenoperationen, wie sie hier durchgeführt werden müssen, geeignet<br />

ist (vgl. Konzepte aus 3. Kapitel). Deshalb wird die GUI mit Tcl/Tk umgesetzt, während<br />

die Logik in ANSI-C abgehandelt wird.<br />

Der C-Code wird im Falle <strong>von</strong> MS Windows in eine DLL gekapselt, welche <strong>von</strong> Tcl/Tk aus<br />

angesprochen wird. Für eine evt. gewünschte Portierung auf andere Plattformen kann der<br />

ANSI-C- und Tcl/Tk-Code bis auf kleine Änderungen komplett wieder verwendet werden.<br />

Für die Darstellung der Spektren wird die freie Bibliothek PLplot<br />

(http://plplot.sourceforge.net/) verwendet. Diese bietet entsprechende Erweiterungen an, so<br />

dass sie <strong>von</strong> Tcl aus benutzt werden kann.<br />

Während der Entwicklung traten die meisten Fehler auf Ebene der Präsentationsschicht auf.<br />

Dies liegt an der Art der Skriptsprache Tcl, welche nicht typisiert ist. Syntaxfehler treten deswegen<br />

erst zur Laufzeit des Programms auf. Bei ANSI-C beschränkten sich die meisten Probleme<br />

auf Speicherzugriffsfehler, die jedoch selten waren und schnell behoben werden konnten.<br />

Als Entwicklungswerkzeuge für die Programmierung wurden die OpenSource-Produkte Dev-<br />

C++ (http://www.bloodshed.net/devcpp.html) sowie Ased (http://www.tcl-home.de/ased) für<br />

Tcl/Tk verwendet.<br />

Im Folgenden wird erläutert welche Programmteile selber entwickelt wurden, welche <strong>von</strong><br />

Drittanbietern stammen und wo die entsprechenden Bausteine in der Architektur (vgl. Abb.<br />

4.1) eingebaut wurden.


Die Methoden für die Berechnung der Isotopenverteilung eines Moleküls wurden alle selber<br />

entwickelt. Der Code ist in der Logik-Schicht angesiedelt und somit in ANSI-C programmiert.<br />

Die für die Berechnung notwendigen Funktionen entsprechen zum Großteil den Methoden aus<br />

Abb. 3.4.1. Dazu gehören Methoden welche die Isotopenkombinationen berechnen, deren relative<br />

Häufigkeit bestimmen, die Einzelverteilungen zusammenfassen, den Massendefekt korrigieren<br />

und die Häufigkeiten skalieren. Zusätzlich wurden Methoden implementiert, welche<br />

die <strong>von</strong> der Geräteauflösung abhängige Peakverbreiterung berechnen.<br />

Ebenso in der Logikschicht eingebaut sind die Routinen des Savitzky-Golay-Filters, welche<br />

aus [NR] stammen. Einzig die Funktion für das Anwenden der Savitzky-Golay-Koeffizienten<br />

(vgl. Gl. (3.2.1)) musste selber programmiert werden. Um den Filter ohne Signalverfälschende<br />

Wirkung anwenden zu können, bedarf es wie bereits in Kap. 3.2. erwähnt äquidistanter Datenpunkte.<br />

ESI-MS-Spektren erfüllen diese Eigenschaft nicht und es muss folglich interpoliert<br />

werden. Der Code für die lineare Interpolation der Daten ist eine Eigenentwicklung.<br />

Bei den Routinen für die Elimination der Basislinie handelt es sich bis auf die kubische Spline<br />

Interpolation und den Savitzky-Golay-Filter für die 4. Ableitung welche beide aus [NR]<br />

stammen um Eigenentwicklungen.<br />

Die Bibliothek für den LM-Algorithmus, welche für das Fitting der Hüllkurven verwendet<br />

wird, stammt <strong>von</strong> [Lourakis05]. Diese ist im Gegensatz zur [NR] Implementierung wesentlich<br />

robuster. Die Methode welche den LM-Algorithmus aufruft und dabei versucht die Startparameter<br />

möglichst geschickt zu wählen wurde selber programmiert. Ebenso wurden die Methoden<br />

für die Erkennung der Ausreißer selber programmiert.<br />

Die Funktionen für die Peakauswahl, d.h. Erkennung überlappender Peaks sowie die Berechnung<br />

der Quantitäten sind ebenfalls selber geschrieben und zwar in ANSI-C.<br />

Neben den hier erwähnten Aspekten wurden eine Reihe weiterer Hilfsfunktionen implementiert,<br />

welche in der Logikschicht immer wieder zur Anwendung kommen. Beispielhaft seien<br />

zwei Methoden erwähnt: Die eine formatiert Tcl-Konforme Fehlermeldung und die andere<br />

dient zum Verfolgen <strong>von</strong> Nachrichten im Debug-Modus.<br />

Auf Ebene der Präsentationsschicht wurde die Seite „Envelope Modelling“ eigens für das Fitting<br />

der Hüllkurven entwickelt und zum vorhandenen Programm hinzugefügt (vgl. Anhang<br />

C). Daneben wurden noch diverse Anpassungen an verschiedenen Stellen im Code vorgenommen.<br />

So mussten entsprechende Menüpunkte gesetzt werden und kleinere Dialogboxen<br />

erstellt werden, um die oben beschriebenen Funktion aufrufen zu können. Außerdem mussten<br />

existierende iTcl Klassen um verschiedene Attribute erweitert werden damit die Datenhaltung<br />

gewährleistet ist. Die bestehenden Methoden für das Berechnen <strong>von</strong> Peakserien wurden aus<br />

dem Tcl Code ausgelagert und in ANSI-C geschrieben, da sie erstens dadurch schneller <strong>von</strong><br />

69


statten gehen und zweitens nicht in der Präsentationsschicht gehören. Während dem kompletten<br />

Entwicklungszeitraum wurden darüber hinaus Fehler aus dem bestehenden Code beseitigt,<br />

sofern welche gefunden wurden.<br />

Neben den Entwicklungen, welche das Programm Massfinder II betreffen wurden zusätzlich<br />

einige Werkzeuge in ANSI-C geschrieben. Deren Aufgabe ist im Wesentlichen die Generierung<br />

synthetischer Daten. Diese wurden für die Validierung verwendet (vgl. folgendes Kapitel).<br />

70


5. Validierung<br />

An dieser Stelle wird eine Validierung der entwickelten Methoden anhand <strong>von</strong> Monte-Carlo-<br />

Simulationen durchgeführt.<br />

Die Güte der Algorithmen bzw. das gesamte Verfahren kann anhand empirischer Daten nur<br />

bedingt überprüft werden, da hier die wahren Quantitäten unbekannt sind. Ein Vergleich mit<br />

anderen Quantifizierungsmethoden gibt zwar Aufschluss darüber, ob man sich im richtigen<br />

Bereich bewegt, jedoch kann es auch bei diesen Methoden zu Abweichungen vom tatsächlichen<br />

Wert kommen. Deswegen müssen die Referenzmethoden kritisch betrachtet werden. Um<br />

eine korrekte Aussage über die Güte der hier entwickelten Methoden zu treffen, werden deshalb<br />

Simulationen durchgeführt: Synthetische Daten werden mit den entwickelten Konzepten<br />

analysiert, um die Verfahren zu validieren.<br />

Es werden zwei Aspekte des Programms validiert. Zum einen findet eine separate Bewertung<br />

des letzten Teils des Arbeitsablaufs statt, nämlich des Fittings der Hüllkurve. Und zum anderen<br />

wird die Quantifizierung, im gesamten Prozessablauf betrachtet, validiert.<br />

5.1. Validierung des Hüllkurven-Fittings<br />

Die Bewertung des letzten Bausteins – die Bestimmung der Hüllkurve – wird mittels der<br />

Monte-Carlo-Simulation durchgeführt. Bei einer Monte-Carlo-Simulation werden mehrere<br />

Szenarien eines Modells erzeugt, um anschließend einen – wie auch immer gearteten – Test<br />

auf den generierten Szenarien durchzuführen. Die bei dem Test erhaltenen Variablen werden<br />

in einem Histogramm aufgetragen, auf dem man sehen kann, welcher Verteilung diese folgen,<br />

und wie groß die Streuung der Variablen ist. Dadurch kann geschätzt werden, in welchem<br />

Rahmen sich die Qualität des Verfahrens bewegt.<br />

Die Simulationen sollen aufzeigen, wie stabil das Konzept ist, deswegen werden die generierten<br />

Hüllkurven mit viel Rauschen versehen. Zusätzlich werden nur wenige, schlecht verteilte<br />

Punkte aus der Hüllkurve für das Fitting herangezogen. Sehr schwierige Voraussetzungen also,<br />

um die richtigen Parameter zu bestimmen.<br />

Als Referenzmodell wird die Hüllkurve einer schweren Kette eines Antikörpers verwendet<br />

(vgl. Abb. 5.1.1 und Kap. 3.6). Ausgehend <strong>von</strong> diesem Modell werden insgesamt 500 Szenarien<br />

erzeugt. Bei jedem Szenario werden die y-Ordinaten des Basismodells mit einem 10%igen<br />

Gauß-Rauschen versehen. Dies soll, durch Überlappung mit z.B. Addukt-Signalen, verzerrte<br />

Intensitäten simulieren. Im nächsten Schritt werden zufällig 20 Punkte aus der generier-<br />

71


ten Hüllkurve gezogen. Basierend auf diesen 20 Punkten wird schließlich ein Fitting durchgeführt,<br />

bei dem versucht wird die Hüllkurve zu rekonstruieren.<br />

Für alle so erzeugten und gefitteten Szenarien / Hüllkurven werden die einzelnen Parameter in<br />

einem Histogramm aufgetragen, um deren Verteilung zu sehen. Die Ergebnisse der Monte-<br />

Carlo-Simulation sind in Abb. 5.1.2 zusammengefasst. Für alle drei Basisfunktionen sind die<br />

Histogramme (die Werte, welche aus dem Fitting resultieren) der Parameter Mittelpunkt und<br />

Sigma (Breite) aufgetragen. Beim Blick auf die Resultate fällt auf, dass die Streuung der Parameter<br />

Mittelpunkt und Sigma bei den letzten beiden Basisfunktionen am größten ist. Ein<br />

Grund hierfür kann sein, dass diese beiden stark überlappen müssen, um die resultierende<br />

Hüllkurve zu erzeugen (vgl. Abb. 5.1.1). B1 ist durch die Hüllkurve verhältnismäßig gut charakterisiert.<br />

B2 und B3 hingegen sind nicht eindeutig durch die Hüllkurve determiniert, d.h.<br />

die Position und die Amplitude beider Basisfunktionen können variiert werden und man erhält<br />

immer noch ein gutes Fitting Resultat (R² nahe 1). Konkret wird im Beispiel B3 beim Fitting<br />

einerseits <strong>von</strong> B1 und andererseits <strong>von</strong> B2 beeinflusst. Dadurch kommt es zu größeren Abweichungen<br />

der Parameter <strong>von</strong> den tatsächlichen Werten.<br />

Beim Betrachten der großen Parametervarianzen darf man nicht vergessen, dass die Simulationen<br />

schwierig ausgelegt sind – sie sollen die Grenzen aufzeigen. So beträgt bei den analytischen<br />

Daten das Rauschen i.d.R. unter 10% und die Punkte, auf denen ein Fitting durchgeführt<br />

wird, sind meistens äquidistant, was gewährleistet, dass über den gesamten Datenbereich<br />

ein gutes Fitting durchführbar ist. Bei den Simulationen hingegen wurden die Punkte zufällig<br />

gezogen. Es kann also durchaus passieren, dass ein Bereich der Hüllkurve überaus gut charakterisiert<br />

ist und ein anderer sehr schlecht. Dies erklärt, warum die Parameterabweichung vom<br />

tatsächlichen Wert stellenweise so groß ist (s. Abb. 5.1.2 B3).<br />

Neben den Parametern der Basisfunktionen ist auch die Betrachtung der Fläche (hier: Summe<br />

<strong>von</strong> I(z) über alle Ladungszustände z), welche die Hüllkurve beschreibt, <strong>von</strong> Interesse.<br />

Schließlich spiegelt sich die Fläche der Hüllkurve direkt im Quantifizierungsergebnis wider.<br />

Um diese Eigenschaft zu charakterisieren werden zwei weitere Testreihen gestartet, wobei jede<br />

1000 Szenarien enthält. Die Anzahl Szenarien wurde verdoppelt, um eine bessere Ge-<br />

72<br />

Abb. 5.1.1: Dargestellt ist die Hüllkurve<br />

einer schweren Kette eines Antikörpers.<br />

Folgende Verteilung wird für das<br />

Erzeugen der Hüllkurve verwendet:<br />

I(z)=B1+B2+B3<br />

B1=GAUSS(1647,39,4.7)<br />

B2=GAUSS(1698,60,4.2)<br />

B3=GAUSS(2855,52,5.4)


nauigkeit für die zu erwartende Standardabweichung zu bekommen. Bei beiden Testreihen<br />

sind die Bedingungen für das Erzeugen der Datenpunkte identisch zu den vorhin durchgeführten<br />

Simulationen. Nur bei der zweiten Testreihe gibt es einen Unterschied: Die Punkte sind<br />

nicht zufällig aus der generierten Hüllkurve gewählt sondern äquidistant, was der Normalfall<br />

bei biologischen Daten ist.<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

B1 - Parameter: Center - StdErr: 8,25<br />

31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55<br />

B2 - Parameter: Center - StdErr: 9,99<br />

0<br />

34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

B3 - Parameter: Center - StdErr: 20,10<br />

c<br />

0<br />

2 6 10 14 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98<br />

B1 - Parameter: Sigma - StdErr: 4,91<br />

Abb. 5.1.2: Ergebnis einer Monte-Carlo-Simulation mit 500 Tests. Es sind die Histogramme der Parameter Mittelwert<br />

und Breite / Sigma einer jeden Basisfunktion abgebildet. Für jeden Parameter ist zusätzlich die Standardabweichung<br />

vom Erwartungswert angegeben.<br />

Die Variation der Fläche beider Testreihen ist in Abb. 5.1.3 zusammengefasst. Die erste Testreihe<br />

ergibt eine Standardabweichung der Fläche <strong>von</strong> 25,8%. Zum Vergleich dazu erhält man<br />

eine Standardabweichung <strong>von</strong> nur 2,52% wenn die Punkte äquidistant sind. Sind die Datenpunkte<br />

äquidistant, stört das 10%-ige Rauschen sowie die geringe Zahl an Datenpunkten<br />

kaum, was sich in der geringen Standardabweichung der Fläche <strong>von</strong> nur 2,52% äußert. Dies<br />

lässt den Schluss zu, dass eine Quantifizierung auf ähnlichen biologischen Daten gut gelingt.<br />

Einzig im niederprozentualen Bereich, d.h. bei Massen, die mit nur ca. 5% Anteil im Spekt-<br />

140<br />

120<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

120<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

1 2 3 4 5 6 7 8 9 10 11 12 13 14<br />

B2 - Parameter: Sigma - StdErr: 5,50<br />

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16<br />

B3 - Parameter: Sigma - StdErr: 5,56<br />

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16<br />

73


um vertreten sind, muss man Abstriche in der Qualität machen. Eine exakte Aussage für solche<br />

Massen ist bei einer Standardabweichung <strong>von</strong> 2,52% nur noch schwer zu treffen.<br />

Als Resultat kann man sagen, dass bei sehr schlechten Daten eine automatische Quantifizierung<br />

für stark ausgeprägte Spezies noch durchführbar ist, wohingegen bei schwach repräsentierten<br />

Spezies eine Aussage bei so großen Standardabweichungen eher einem Lotto-Spiel<br />

gleicht. Die Qualität des Ergebnisses kann aber sicherlich durch den Eingriff eines erfahrenen<br />

Anwenders (visuelle Kontrolle, Setzen der Startparameter) bei schwierigen Fällen gesteigert<br />

werden.<br />

5.2. Validierung der Quantifizierungspipeline<br />

Damit die komplette Quantifizierungspipeline validiert werden kann, muss die Simulation an<br />

der Wurzel ansetzen, nämlich am Anfang des Quantifizierungsprozesses. Um das zu ermöglichen,<br />

werden synthetische Spektren erzeugt. Bei den künstlich erzeugten Spektren sind die<br />

Verhältnisse der zur Synthese verwendeten Massen bekannt. Somit kann bei einer <strong>Analyse</strong> der<br />

Spektren mit Massfinder II oder anderen Methoden überprüft werden, ob die korrekten Massenverhältnisse<br />

gefunden werden.<br />

Die synthetischen Spektren sind an echte Messungen reduzierter Antikörper angelehnt, d.h.<br />

die verwendeten Massen entsprechen echten Glykosylierungsformen, die Hüllkurve und das<br />

Signal-zu-Rausch-Verhältnis sind ähnlich gewählt. Einzig die Adduktanzahl wurde erhöht,<br />

um die Quantifizierung zu erschweren. Auf die Erzeugung einer gerätespezifischen Basislinie<br />

74<br />

45<br />

40<br />

35<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

180<br />

160<br />

140<br />

120<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

Are a-Unde r-Curv e - StdErr: 25,8%<br />

0<br />

0 9 18 27 36 45 54 63 72 81 90 99 108 117 126 135 144 153 162 171 180 189 198<br />

Area-Unde-Curve - StdErr: 2,52%<br />

90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110<br />

Abb. 5.1.3: Histogramm der Fläche der gefundenen<br />

Hüllkurven. Der Wert 100 entspricht der tatsächlichen<br />

Fläche. Ist die Zahl größer 100, so beschreibt<br />

die gefundene Hüllkurve eine größere Fläche als die<br />

Tatsächliche. Entsprechend umgekehrt verhält es<br />

sich, wenn die Zahl kleiner 100 ist. Oben ist die MC<br />

Simulation für den Grenzfall dargestellt, bei dir die<br />

Standardabweichung 26% beträgt und unten ist der<br />

Normalfall gegeben, bei dem ausreichend viele<br />

Punkte zum Fitten vorhanden sind. Hier beträgt die<br />

Standardabweichung nur noch 2,52%.


wird verzichtet, weil auch ohne sie ein Vergleich der Quantifizierungsmethoden durchführbar<br />

ist, d.h. falls eine Basislinie in den synthetischen Spektren vorhanden ist, so stammt diese allein<br />

<strong>von</strong> den Addukten der zur Synthese verwendeten Massen sowie vom hinzugefügten<br />

Grundrauschen.<br />

Um ein künstliches Spektrum zu erzeugen muss für jede Masse eine Peakserie für den betrachteten<br />

m/z-Bereich erzeugt werden. Ferner wird die Hüllkurve der Peakserie generiert.<br />

Anschließend wird die Intensität der Peakserie angepasst, indem sie mit dem festgelegten<br />

Massenanteil multipliziert wird. Sind alle Peakserien der Massen erzeugt, werden sie moduliert<br />

(Faltung der Peakserien), so dass ein Spektrum entsteht. Im letzten Schritt wird das generierte<br />

Spektrum mit einem Gauß-Rauschen versehen.<br />

Auf die exakte Berechnung der Peakform wird verzichtet, weil sich die Isotopenverteilung bei<br />

großen Molekülen einer Gauß-Kurve nähert. Folglich werden die Peaks mit einer Gauß-<br />

Funktion erzeugt. Die beiden Parameter Mittelpunkt und Amplitude der Gaußfunktion sind<br />

direkt gegeben. Ersterer entspricht dem m/z-Verhältnis und letzterer der Intensität I(z) der<br />

Hüllkurve am entsprechenden Ladungszustand. Der Wert für den Parameter Halbwertsbreite<br />

wurde empirisch auf 0,19D festgelegt. Die <strong>von</strong> dem m/z-Verhältnis abhängige Peakverbreiterung<br />

wird nicht simuliert, da sie für die Simulation nicht weiter <strong>von</strong> Belang ist.<br />

Für die Berechnung der Hüllkurve werden Gauß-Funktionen als Basisfunktionen verwendet.<br />

Die Hüllkurve der leichten Kette wird abhängig vom simulierten Spektrum mit einer oder<br />

zwei Basisfunktionen erzeugt. Für die schwere Kette werden durchweg zwei Basisfunktionen<br />

verwendet. Innerhalb eines Spektrums sind die Hüllkurven für alle Varianten der schweren<br />

bzw. leichten Kette identisch. Die Parameter zur Erzeugung der künstlichen Spektren sind in<br />

Tab. 5.2.1 zusammengetragen.<br />

Für jede Masse werden 44 Adduktsignale erzeugt. Dabei ist die Wahrscheinlichkeit für die<br />

Bildung eines Addukts auf P(Addukt)=0,21 gesetzt. Die Wahrscheinlichkeit, dass sich n Addukte<br />

anlagern, ist P(Addukt) n .<br />

75


Die Auswertung der Spektren findet statt<br />

76<br />

Molekül Basisfunktion Amplitude Mittelpunkt Sigma<br />

Maximale<br />

Intensität<br />

AK1<br />

2,5% Noise<br />

LK<br />

B1(z)<br />

B2(z)<br />

0,84<br />

0,16<br />

26,00<br />

16,49<br />

3,55<br />

1,61<br />

25316<br />

SK<br />

B1(z)<br />

B2(z)<br />

0,34<br />

0,66<br />

40,00<br />

56,92<br />

4,96<br />

6,59<br />

16418<br />

AK2, AK8<br />

5% Noise<br />

LK<br />

B1(z)<br />

B2(z)<br />

0,92<br />

0,09<br />

17,30<br />

13,50<br />

1,15<br />

0,99<br />

40000<br />

SK<br />

B1(z)<br />

B2(z)<br />

0,87<br />

0,13<br />

36,64<br />

35,19<br />

3,28<br />

7,00<br />

54054<br />

AK3<br />

2,5% noise<br />

LK<br />

B1(z)<br />

B2(z)<br />

0,24<br />

0,76<br />

18,98<br />

26,88<br />

1,89<br />

2,69<br />

25000<br />

SK<br />

B1(z)<br />

B2(z)<br />

0,44<br />

0,56<br />

51,44<br />

36,40<br />

5,13<br />

5,09<br />

4167<br />

AK4, AK9<br />

2,5% noise<br />

LK<br />

B1(z)<br />

B2(z)<br />

0,33<br />

0,67<br />

17,70<br />

27,13<br />

1,57<br />

3,30<br />

14300<br />

SK<br />

B1(z)<br />

B2(z)<br />

0,26<br />

0,74<br />

36,64<br />

57,29<br />

7,00<br />

6,62<br />

5600<br />

AK5<br />

10% noise<br />

LK<br />

B1(z)<br />

---<br />

1,00<br />

---<br />

21,94<br />

---<br />

4,21<br />

---<br />

333<br />

SK<br />

B1(z)<br />

B2(z)<br />

0,39<br />

0,61<br />

44,03<br />

58,59<br />

6,99<br />

6,99<br />

300<br />

AK6<br />

30% noise<br />

LK<br />

B1(z)<br />

---<br />

1,00<br />

---<br />

20,59<br />

---<br />

4,63<br />

---<br />

57<br />

SK<br />

B1(z)<br />

B2(z)<br />

0,57<br />

0,43<br />

41,02<br />

57,18<br />

6,89<br />

5,96<br />

50<br />

AK7<br />

2,5% noise<br />

LK<br />

---<br />

---<br />

---<br />

---<br />

---<br />

---<br />

---<br />

---<br />

---<br />

SK<br />

B1(z)<br />

B2(z)<br />

0,25<br />

0,75<br />

30,08<br />

43,29<br />

4,85<br />

5,35<br />

18750<br />

• manuell (per Hand mit Lineal),<br />

• mit der In-House Entwicklung,<br />

• mit dem MaxEnt-Algorithmus.<br />

• und mit Massfinder II.<br />

Tab. 5.2.1: Die<br />

Tabelle gibt die<br />

Daten, welche<br />

zur Erzeugung<br />

der Hüllkurven<br />

verwendet wurden,<br />

wieder.<br />

Bei der <strong>Analyse</strong> mit Massfinder II werden drei Quantifizierungsarten (QA) betrachtet:<br />

• QA1: Die Peakauswahl entspricht der zweiten Variante aus Kap. 3.1 (Schnittmenge).<br />

Die Hüllkurve wird nicht bestimmt, d.h. als Intensität wird die Intensität des<br />

Spektrums an entsprechender Stelle verwendet.<br />

• QA2: Die Peakauswahl entspricht der dritten Variante aus Kap. 3.1 (Schnittmenge<br />

& nicht überlappend). Auch hier wird die Hüllkurve nicht bestimmt.<br />

• QA3: Die Peakauswahl entspricht der vierten Variante aus Kap. 3.1 (alle). Die Hüllkurve<br />

wird durch Fitting bestimmt.<br />

Diese drei Varianten werden einmal direkt auf das Spektrum angewendet und einmal nachdem<br />

die Basislinie mit einer der drei vorgestellten Methoden entfernt wurde. Es werden also drei<br />

Arten mit vier Methoden des Basislinienabzugs getestet, somit werden insgesamt 12 Möglichkeiten<br />

der Quantifizierung durchleuchtet.<br />

Da die <strong>Analyse</strong> bei allen Methoden manuelle Schritte enthält, welche Zeit kosten, wurde die<br />

Untersuchung auf 9 synthetische Spektren beschränkt. Diese Anzahl ist für eine umfassende


Bewertung zwar zu gering, jedoch gibt sie bereits eine Aussage darüber, in welchem Rahmen<br />

sich die betrachteten Verfahren bewegen. Um die Methoden besser vergleichen zu können,<br />

wird neben den ermittelten Verhältnissen auch die Standardabweichung zur Referenz angegeben.<br />

Die detaillierten Ergebnisse der Simulation sind in Anhang A zu finden.<br />

Die Entwickler des „Maximum Entropie“-Algorithmus schreiben, dass die Ergebnisse, welche<br />

aus der Entfaltung eines Spektrums stammen, nicht zur Quantifizierung verwendet werden<br />

sollten, weil der Entropieprozess einen Bias durch seine Nichtlinearität hineinbringt [Reinhold92],<br />

d.h. die <strong>von</strong> MaxEnt gefundenen Intensitäten sind nicht proportional zu den Intensitäten<br />

im gemessenen Spektrum. In [Schmieder97] ist außerdem zu lesen, dass der Fehler zum<br />

einen durch das Spektrum selber und zum anderen durch die zur Entfaltung verwendeten Parameter<br />

stark beeinflusst wird. Vermutlich ist wegen dieser zwei äußeren Faktoren in der Literatur<br />

keine Aussage darüber zu finden, in welchem Rahmen sich der Quantifizierungsfehler<br />

bei MaxEnt befindet. Dies hat dazu bewegt, auch den MaxEnt-Algorithmus mit in die Auswertung<br />

einzubeziehen.<br />

Im Folgenden werden die Ergebnisse jeder Quantifizierungsmethode diskutiert. Zum besseren<br />

Verständnis der Diskussion werden die Daten aus Anhang A als Diagramme aufbereitet. Auf<br />

der x-Achse der Diagramme sind alle Massen welche zur Synthese der Spektren verwendet<br />

wurden aufgetragen und zwar geordnet nach deren jeweiligen Anteil am Spektrum. Auf der y-<br />

Achse befindet sich der Quotient aus ermittelter Quantität und dem Erwartungswert (Referenz-Quantität).<br />

Man erhält also für jede Methode ein Streudiagramm, welches die Informationen<br />

aller Experimente kapselt. Im Idealfall (d.h. jeder Massenanteil wurde richtig vorhergesagt)<br />

sollte man eine Gerade sehen, welche auf 100% liegt. Ist eine Masse überbewertet, d.h.<br />

es wird mehr Anteil am Spektrum vorhergesagt, so ist der Wert an entsprechender Stelle größer<br />

100%. Analog dazu ist bei einer Unterbewertung der Wert kleiner 100%. Um die Tendenzen<br />

besser zu erkennen, werden die Punkte durch Linien verbunden. Damit unterbewertete<br />

Massen nicht bevorzugt dargestellt werden, wird die y-Skala logarithmiert.<br />

Die Resultate der Simulation zeigen, dass der MaxEnt-Algorithmus im Schnitt eine geringe<br />

Standardabweichung aufweist (Tab. 5.2.2). Betrachtet man das Streudiagramm (vgl. Abb.<br />

5.2.1) <strong>von</strong> MaxEnt, so sieht man, dass für Quantitäten unter 10% eine große Streuung in der<br />

Genauigkeit herrscht. Teilweise wird sogar die tatsächliche Quantität um das 6fache überbewertet.<br />

Ab einem Massenanteil <strong>von</strong> mehr als 10% lässt sich der MaxEnt-Algorithmus gut für<br />

die Quantifizierung verwenden. Offensichtlich eignet sich MaxEnt für die Quantifizierung der<br />

hier untersuchten Problemklasse. Ob diese Aussage auch für Spektren anderer <strong>Protein</strong>e zutrifft,<br />

wurde nicht untersucht.<br />

77


Bei der manuellen Quantifizierung gab es Schwierigkeiten bei den Spektren AK5 und AK6.<br />

Das schlechte Signal-zu-Rausch-Verhältnis hat eine Messung per Hand ausgeschlossen. Für<br />

alle anderen Spektren wurde die Quantifizierung durchgeführt und die erhaltenen Werte liegen<br />

sehr nahe an der Referenz.<br />

78<br />

1000%<br />

10%<br />

1000%<br />

10%<br />

Abb. 5.2.2: Quantifizierungsvarianz eines Laboranten.<br />

MaxEnt<br />

100%<br />

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%<br />

Abb. 5.2.1: Quantifizierungsvarianz <strong>von</strong> MaxEnt<br />

Manuell<br />

100%<br />

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%


Die Standardabweichung ist bei der manuellen Bewertung nie höher als 2,5% und im Schnitt<br />

liegt sie bei 1,4% (vgl. Tab. 5.2.2). Ein Blick auf das Streudiagramm in Abb. 5.2.2 zeigt, dass<br />

auch bei der manuellen Messung, Massen mit einem geringen Anteil am Spektrum (kleiner<br />

10%) schwer zu quantifizieren sind. Die Streuung ist aber halb so groß wie bei MaxEnt.<br />

Das In-House entwickelte Quantifizierungsprogramm, welches über die 4. Ableitung quantifiziert,<br />

schneidet bei der Auswertung mit am schlechtesten ab. Dies hat überrascht, wo doch die<br />

gleichen Peaks für die Quantifizierung verwendet wurden wie bei QA2. Beim Betrachten <strong>von</strong><br />

Abb. 5.2.3 fällt außerdem auf, dass die Messungen verfälscht sind. Massen mit einem geringem<br />

Anteil am Spektrum werden überbewertet und Massen mit einem hohen Anteil werden<br />

unterbewertet. Ob das Programm nun tatsächlich schlechter quantifiziert oder das Ergebnis<br />

durch falsche Programmparameter verfälscht wurde, konnte nicht geklärt werden. An dieser<br />

Stelle besteht noch Klärungsbedarf.<br />

1000%<br />

In-House Entwicklung<br />

100%<br />

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%<br />

10%<br />

Abb. 5.2.3: Quantifizierungsvarianz der In-House Entwicklung.<br />

Nachdem die Quantifizierung mit MaxEnt, mit der Hand und mit der In-House Entwicklung<br />

betrachtet wurde, werden im Folgenden die verschiedenen Quantifizierungswege <strong>von</strong> Massfinder<br />

II betrachtet.<br />

In Abb. 5.2.4 ist das Resultat abgebildet, welches man erhält, wenn die Basislinie nicht abgezogen<br />

wird. Unabhängig <strong>von</strong> der Quantifizierungsart, lässt sich ein starker Bias beobachten,<br />

der sich analog zur In-House Entwicklung verhält. Ebenso lässt sich auch hier bei ca. 10% die<br />

Stelle finden, bei der ein Qualitätssprung stattfindet. Innerhalb dieser Gruppe schneidet QA3<br />

(Bestimmung der Hüllkurve) v.a. im Bereich unter 10% am besten ab.<br />

79


Ein ähnliches Bild bietet sich, wenn die Basislinie mit einem Spline abgezogen wird (vgl.<br />

Abb. 5.2.5). Hier wird zwar die Stärke des Bias abgeschwächt, jedoch bleibt die Tendenz des<br />

Bias die gleiche wie bei nicht abgezogener Basislinie. Der Abzug der Basislinie mit dieser<br />

Methode ist demnach nicht empfehlenswert, da es den Bias nur geringfügig korrigiert.<br />

80<br />

1000%<br />

1000%<br />

10%<br />

Basislinie: nicht abgezogen<br />

100%<br />

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%<br />

10%<br />

Abb. 5.2.4: Quantifizierungsvarianz <strong>von</strong> MF II bei nicht abgezogener Basislinie.<br />

Basislinie: Spline<br />

100%<br />

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%<br />

Abb. 5.2.5: Quantifizierungsvarianz <strong>von</strong> MF II bei Abzug der Basislinie mittels Spline-Interpolation.<br />

QA1<br />

QA2<br />

QA3<br />

QA1<br />

QA2<br />

QA3


Als nächstes werden die Ergebnisse nach Elimination der Basislinie mittels 4. Ableitung betrachtet<br />

(vgl. Abb. 5.2.6). Mit diesem Ansatz ist kein Bias mehr zu beobachten. Somit kann<br />

man diese Methode für die Quantifizierung heranziehen, jedoch gilt auch hier, dass die Güte<br />

der Vorhersage bei einem Massenanteil <strong>von</strong> unter 10% stark abnimmt. QA2 und insbesondere<br />

QA3 erreichen in diesem Grenzbereich bessere Ergebnisse als QA1.<br />

1000%<br />

Basislinie: 4. Ableitung<br />

100%<br />

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%<br />

10%<br />

Abb. 5.2.6: Quantifizierungsvarianz <strong>von</strong> MF II bei entfernen der Basislinie mittels 4. Ableitung.<br />

Als letzte Methode wird der Abzug der Basislinie mit dem „Tal-zu-Tal“-Verfahren betrachtet<br />

(vgl. Abb. 5.2.7). In Kap. 3.3.1 wurde gezeigt, dass mit dieser Variante u.U. zuviel vom Signal<br />

abgezogen wird. Solche Fälle treten auf, wenn Peaks sehr nahe neben anderen Peaks liegen,<br />

so dass die Basislinie zuviel wegschneidet (vgl. Abb. 3.3.1.1). Dadurch, dass bei manchen<br />

Peaks mehr Signal als bei anderen abgeschnitten wird, wird ein starkes Rauschen in der<br />

Hüllkurve generiert. Die direkte Folge ist, dass ein Fitting der Hüllkurve bei zu starkem Rauschen<br />

nicht gut gelingen kann. Dies ist wahrscheinlich der Hauptgrund dafür, dass QA3<br />

manchmal schlechter abschneidet als QA2. Trotz aller Kritik an der „Tal-zu-Tal“-Variante<br />

und den offensichtlichen Schwächen, zeigt die Auswertung, dass man mit dieser Variante mit<br />

die besten Ergebnisse erzielt. Evt. gleichen sich die beim Basislinienabzug gemachten Fehler<br />

beim Betrachten mehrerer Peaks wieder aus, so dass das Ergebnis am Ende wieder stimmt. Ob<br />

dies wirklich die Ursache ist, bleibt aber offen. Hierzu sind genauere Untersuchungen notwendig.<br />

Für die verschiedenen Arten des Basislinienabzugs lässt sich zusammenfassend sagen, dass<br />

die Ergebnisse durchweg besser sind, wenn die Basislinie abgezogen wird. Ferner ist bei Massenanteilen<br />

unter 10% nur mit den Methoden „Tal-zu-Tal“ bzw. „4. Ableitung“ in Kombination<br />

mit QA3 noch eine halbwegs vernünftige Aussage durchführbar.<br />

QA1<br />

QA2<br />

QA3<br />

81


Die Daten aus Anhang A sind in Tabelle 5.2.2 zusammengefasst worden. Dabei sieht man,<br />

dass die Quantifizierung per Hand, mit MaxEnt sowie mit QA3 über die 4. Ableitung die besten<br />

Ergebnisse liefern. Die Tatsache, dass sich mit den hier entwickelten Methoden selbst<br />

schwierige Spektren wie AK5 und AK6 quantifizieren lassen, spricht für die Robustheit <strong>von</strong><br />

Massfinder II.<br />

MaxEnt hat durch seine Genauigkeit für diese Problemklasse überrascht, wo doch die allgemeine<br />

Meinung kursiert, dass es für die Quantifizierung nicht geeignet ist. Die Tatsache, dass<br />

es sich beim MaxEnt-Algorithmus um ein Black-Box-System handelt, spricht allerdings gegen<br />

dessen Verwendung, denn man kann sich nie wirklich sicher sein, ob ein Fehler nun auftritt<br />

oder nicht.<br />

82<br />

1000%<br />

100%<br />

10%<br />

1%<br />

Abb. 5.2.7: Quantifizierungsvarianz <strong>von</strong> MF II bei Abzug der Basislinie mit dem Tal zu Tal verfahren.<br />

Basislinie:<br />

nicht<br />

abgezogen<br />

Basislinie:<br />

Tal zu Tal<br />

Manuell<br />

MaxEnt<br />

In-House Lösung<br />

1,4%<br />

1,5%<br />

5,2%<br />

Basislinie: Tal zu Tal<br />

0% 10% 20% 30% 40% 50% 60% 70% 80% 90%<br />

QA1 5,1% QA1 4,8%<br />

Basislinie:<br />

QA2 3,8% QA2 3,9%<br />

Spline<br />

QA3 3,2% QA3 2,7%<br />

QA1 2,5% QA1 2,7%<br />

Basislinie: 4.<br />

QA2 1,3% QA2 2,0%<br />

Ableitung<br />

QA3 1,6% QA3 1,3%<br />

QA1<br />

QA2<br />

QA3<br />

Tabelle 5.2.2: Zusammenfassung<br />

der Validierung.<br />

Es sind die durchschnittlichenStandardabweichungenangegeben.<br />

Es sind nur diejenigen<br />

Datensätze verwendet,<br />

bei denen alle Methoden<br />

ein Ergebnis geliefert<br />

haben.


Vergleicht man die drei Quantifizierungsarten <strong>von</strong> Massfinder II miteinander, so stellt man<br />

fest, dass die QA1 am schlechtesten abschneidet. Der Grund liegt daran, dass überlappende<br />

Peaks mit in die Quantifizierung einbezogen werden und das Ergebnis dadurch verfälscht<br />

wird. Als zweitbeste Methode hat sich die QA2 herauskristallisiert. Diese betrachtet nur diejenigen<br />

Peaks, welche nicht durch andere überlagert sind. Die dritte Methode, QA3, ist ähnlich<br />

gut wie QA2. Bei QA3 werden alle Peaks zur Quantifizierung herangezogen, jedoch wird<br />

die Hüllkurve durch ein Fitting bestimmt. Der mögliche Grund, warum QA2 und QA3 ähnliche<br />

Werte liefern, ist folgender: Bei den synthetischen Spektren kommen nicht viele Fälle vor,<br />

bei denen, wie in Abb. 3.6.4.2 gezeigt, nicht erfasste Addukt-Signale der leichten Kette mit<br />

Signalen der schweren Kette überlappen. Deswegen bringt das Fitting der Hüllkurve keine<br />

bzw. kaum Verbesserung an dieser Stelle. Wenn aber die Ergebnisse <strong>von</strong> QA2 und QA3 signifikant<br />

abweichen, dann ist QA3 besser positioniert.<br />

5.3. Experimentelle Resultate<br />

In den letzten Kapiteln wurde anhand künstlicher Daten gezeigt, wie zuverlässig die konzipierten<br />

Methoden tatsächlich sind. Die Monte-Carlo-Simulation hat gezeigt, dass das Fitting<br />

der Hüllkurve auch mit schlechten Daten noch gut durchführbar ist. Die Untersuchung der<br />

kompletten Quantifizierungspipeline hat das Bild weiter bestätigt. Die besten Methoden <strong>von</strong><br />

Massfinder II sind mit ca. 1,5% Standardabweichung sehr nahe an der Realität. Selbst durch<br />

starkes Rauschen bzw. durch Peaküberlagerung charakterisierte Spektren lassen sich mit<br />

Massfinder II im Gegensatz zur manuellen Methode noch gut quantifizieren.<br />

Nach der Validierung anhand künstlicher Daten wurden empirische Daten betrachtet. Die eingesetzten<br />

<strong>Analyse</strong>methoden sind die gleichen wie bei der Simulation: Massfinder II, manuell,<br />

In-House Lösung und MaxEnt. Als Untersuchungsmaterial standen 11 Spektren zur Verfügung.<br />

Die Ergebnisse der Quantifizierung sind in Anhang B dargestellt. Als Hinweis sei erwähnt,<br />

dass in manchen Fällen QA1 und QA2 gleiche Massenverhältnisse liefern. Das liegt<br />

daran, dass bei QA2 keine Überlappungen mit anderen Peaks gefunden werden, und somit<br />

dieselben Ladungszustände wie bei QA1 zum Quantifizieren verwendet werden.<br />

Die Schwierigkeit bei diesen und anderen empirischen Daten besteht darin, dass es keine Referenzmethode<br />

gibt. Folglich kann man bei dem durchgeführten Vergleich nur feststellen, ob<br />

die Methoden im selben Rahmen bleiben oder nicht. Eine Aussage darüber, welche Methode<br />

die bessere ist, kann nicht getroffen werden.<br />

83


Ebenso wie bei der Simulation präsentiert sich auch bei den empirischen Daten das gleiche<br />

Bild: Ist die Basislinie abgezogen, so sind die Werte näher an denen der anderen Methoden.<br />

Außerdem liegt QA1 i.d.R. am weitesten <strong>von</strong> den anderen Messungen entfernt.<br />

Bei den Spektren AK2 und AK3 handelt es sich um die gleichen Messungen. Der Unterschied<br />

liegt in der Signalqualität. Während AK3 die Summe vieler Messungen ist, ist AK2 das Ergebnis<br />

nur einer Messung. Folglich ist bei AK2 der Rauschanteil mit ca. 20% sehr groß, während<br />

bei AK3 das Rauschen unter 2% beträgt. Dies ermöglicht eine Beurteilung der Robustheit<br />

anhand empirischer Spektren. So sieht man beim Vergleich jeder Messung zwischen<br />

AK2 und AK3, dass die Werte sehr ähnlich sind, unabhängig <strong>von</strong> dem Rauschanteil. Die Verfahren<br />

können also auch mit schlechten Daten gut umgehen.<br />

Eine genaue <strong>Analyse</strong>, welche beurteilen kann warum ein Verfahren für eine Masse mehr oder<br />

weniger Anteil vorhersagt als die anderen muss noch durchgeführt werden. Offensichtlich hat<br />

aber der Abzug der Basislinie eine große Auswirkung auf das Ergebnis, wie man beim Betrachten<br />

der synthetischen bzw. der empirischen Spektren sieht. Das Problem bei der Basislinie<br />

ist, dass es fremdes Signal enthält, man aber nie weiß ob man in jedem Bereich des Spektrums<br />

richtig abzieht. Es kann sein dass zuviel oder zuwenig vom Spektrum abgezogen wird.<br />

Für eine genauere Untersuchung könnte man Proben mit einer dritten unabhängigen (z.B.<br />

chemischen) Methode quantifizieren und anschließend eine ESI-MS-Aufnahme da<strong>von</strong> durchführen.<br />

Dies würde es ermöglichen den Einfluss der Basislinie zu erkennen bzw. in Zahlen zu<br />

beziffern. Hat man einmal die verschiedenen Formen und Anteile der Basislinie am Spektrum<br />

erfasst, könnte man in einem nächsten Schritt bei der Erzeugung synthetischer Spektren ähnliche<br />

Basislinien dazuaddieren um anschließend eine detaillierte <strong>Analyse</strong> zu tätigen. Zur Klarstellung<br />

sei hier nochmals erwähnt, dass bei den hier erzeugten künstlichen Spektren keine<br />

Basislinie dazuaddiert wurde. Wenn eine schwach-intensive Basislinie vorhanden war, dann<br />

stammt diese allein <strong>von</strong> Adduktsignalen. Echte Spektren weisen i.d.R weitaus stärkere Basislinienanteile<br />

auf.<br />

84


6. Zusammenfassung und Ausblick<br />

Dank der ESI-MS-Technologie ist man heute in der Lage, große Biomoleküle als Ganzes zu<br />

analysieren. Ein besonders wichtiger Aspekt der ESI-MS ist die <strong>Analyse</strong> der Glykosylierungsprofile<br />

<strong>von</strong> Antikörpern und anderen <strong>Protein</strong>en, weil diese maßgeblich deren Funktion<br />

determinieren. Für die medizinische Therapeutik ist es deshalb <strong>von</strong> großer Relevanz, zu wissen,<br />

in welchem Verhältnis verschiedene Glykovarianten eines <strong>Protein</strong>s stehen. Die Bestimmung<br />

dieser Quantitäten direkt aus dem Spektrum ist keine triviale Aufgabe, weil Peakhöhen<br />

und Formen durch Überlagerung mit anderen Peaks verfälscht werden. Sie verlieren ihre<br />

Gauß-Form, sie bekommen Schultern, Sättel, etc. Vorhandene Softwareprodukte lösen dieses<br />

Problem nur unbefriedigend, weshalb eine Neuentwicklung gewünscht war.<br />

Mit Massfinder II wurde das ursprünglich für die qualitative <strong>Analyse</strong> <strong>von</strong> Antikörper ESI-MS<br />

Spektren entwickelte Programm um Methoden für eine quantitative <strong>Analyse</strong> erweitert. Neben<br />

der Möglichkeit, eine manuelle Quantifizierung der Spektren durchzuführen, wurden robuste<br />

Methoden für eine weitestgehend automatisierte Quantifizierung implementiert. Die softwaretechnische<br />

Umsetzung wurde mittels Tcl/Tk und ANSI-C vollzogen, wobei Tcl/Tk für die<br />

Präsentationsschicht verwendet wird und ANSI-C für die darunter liegenden Logikschichten.<br />

Basierend auf Monte-Carlo-Simulationen wurde eine Aussage über die Güte der entwickelten<br />

Verfahren gemacht. Die einfache Variante QA1 hat sich als die schlechteste erwiesen. Mit<br />

dem weitestgehend automatisierten Verfahren QA2 lassen sich nach Abzug der Basislinie gute<br />

Ergebnisse erzielen. Für noch präzisere Ergebnisse muss QA3 angewendet werden – diese<br />

ist jedoch mit einem erhöhten Zeitaufwand verbunden, weil das Hüllkurven-Fitting für jede<br />

Masse einzeln betrachtet werden muss. Bei der Wahl einer geeigneten Methode für die Elimination<br />

der Basislinie ist die Variante „4. Ableitung“ zu empfehlen.<br />

Als Schlussfolgerung der Validierung kann man festhalten, dass das Ziel erreicht wurde Verfahren<br />

zu entwickeln, welche ähnlich gute Ergebnisse liefern, wie die durch „erfahrene“ Laboranten<br />

durchgeführte manuelle Quantifizierung. Dies hat drei Konsequenzen: die Quantifizierung<br />

lässt sich schneller durchführen, schlechte Spektren lassen sich dank der Robustheit der<br />

Verfahren auch noch gut quantifizieren und zum anderen können mit Massfinder II auch<br />

„unerfahrene“ Laboranten reproduzierbare Ergebnisse liefern. Neben den automatisierten Prozessen<br />

wird auch die manuelle Quantifizierung im Programm zur Verfügung gestellt, so dass<br />

Fälle bei denen die Automatik nur unzureichende Ergebnisse liefert noch behandelt werden<br />

können. Massfinder I und II wurden zwar im Hinblick auf Antikörper entwickelt, jedoch lassen<br />

sich die Module „Qualitative <strong>Analyse</strong>“ und „<strong>Quantitative</strong> <strong>Analyse</strong>“ auch für andere Biomoleküle<br />

verwenden, was Massfinder II zu einem flexiblen Werkzeug in der Analytik macht.<br />

85


Im Hinblick auf die technische Umsetzung gibt es noch Möglichkeiten zur Verbesserung. So<br />

ließe sich auf Kosten der Transparenz der Quantifizierungsprozess noch weiter beschleunigen,<br />

indem separate Schritte zusammengefasst werden. Gemeint sind der Abzug der Basislinie, die<br />

Auswahl der Ladungszustände und die Quantifizierung an sich.<br />

Ist eine Funktionserweiterung für Massfinder II vorgesehen, so empfiehlt sich auch ein Wechsel<br />

der GUI-Plattform. Mit der Skriptsprache Tcl/Tk bewegt man sich hier mit über 10.000<br />

Zeilen Code bereits an den Grenzen des Machbaren. Aufgrund der Tatsache, dass die Sprache<br />

nicht typisiert ist, sind unvorhersehbare Laufzeitfehler vorprogrammiert. Es kann nicht jedes<br />

Szenario überprüft werden, weil die möglichen Kombinationen der Userinteraktion mit der<br />

Programmoberfläche nahezu unbegrenzt sind. Für eine solidere Grundlage bedarf es einer<br />

besser strukturierten Programmiersprache, die typisiert ist und zur Compile-Zeit bereits einen<br />

Großteil der Fehler abfängt. Da die GUI und die Logik in dem jetzigen Zustand bereits stark<br />

getrennt sind, lässt sich ein Wechsel auf eine andere Plattform für die Sicht mit verhältnismäßig<br />

wenig Aufwand durchführen. Als Alternative zu Tcl/Tk käme C/C++, C# oder Java in<br />

Frage, wobei Java die Ideologie der Betriebssystem-Unabhängigkeit am besten umsetzen<br />

würde.<br />

Bei der Methodik besteht an manchen Stellen noch Raum für Optimierung. So könnte man im<br />

Falle <strong>von</strong> Antikörpern die Quantifizierung auf den mittleren Ladungszustand beschränken,<br />

welcher am besten ausgeprägt ist. Die Randbereiche weisen meistens eine geringe Intensität<br />

auf und lassen sich aufgrund dessen durch Störfaktoren leichter beeinflussen und dadurch<br />

leichter verfälschen. Das Prinzip, dass ähnliche Spezien eine ähnliche Ladungsverteilung haben,<br />

könnte man für die bessere Bestimmung der Hüllkurve anwenden: Die Spektren weisen<br />

i.d.R. eine Hauptspezies auf, die gut repräsentiert ist. Für diese ist die Bestimmung der Hüllkurve<br />

meistens problemlos möglich. Die so gewonnen Parameter der Basisfunktionen könnten<br />

bis auf die Amplitude für Varianten der Hauptspezies wieder verwendet werden. D.h. die Parameter<br />

Mittelpunkt und Halbwertsbreite werden <strong>von</strong> der Hauptspezies übernommen und<br />

festgehalten. Das Fitting wird auf die Amplitude als freien Parameter beschränkt.<br />

Ein gänzlich anderer Ansatz für die Quantifizierung wäre es, den MaxEnt-Algorithmus hierzu<br />

zu verwenden. Die Schwierigkeit besteht darin, die Nichtlinearität des Algorithmus zu korrigieren.<br />

In [Schmieder97] wurde für NMR-Spektren bereits ein solcher Korrektur-<br />

Mechanismus entwickelt. Ob für ESI-Spektren auch die Möglichkeit besteht, die Nichtlinearität<br />

des MaxEnt Algorithmus zu korrigieren, muss untersucht werden. Eine interessante Möglichkeit<br />

wäre dies auf jeden Fall, weil dadurch eine komplette Automatisierung des Quantifizierungsprozess<br />

möglich wäre und trotzdem noch gute Ergebnisse erzielt werden.<br />

86


Anhang<br />

A. Quantifizierungsergebnisse synthetischer Spektren<br />

Ergebnisse des Vergleichs zwischen verschiedenen Quantifizierungsarten anhand synthetischer<br />

Spektren. Die Referenz entspricht den tatsächlichen Werten. Die grauen Prozentzahlen<br />

entsprechen den <strong>von</strong> den jeweiligen Methoden gefundenen Verhältnissen. Die blauen Zahlen<br />

geben die Standardabweichung zur Referenz wieder. Bei manchen Datensätzen war eine<br />

Quantifizierung mit der entsprechenden Methode nicht möglich. Bei QA2 liegt das daran, dass<br />

keine nicht überlappenden Peaks gefunden wurden. Bei der manuellen Methode hingegen<br />

liegt das am zu schlechten Signal-zu-Rausch-Verhältnis des Spektrums.<br />

Molekül Massen Referenz Manuell MaxEnt<br />

In-House<br />

Lösung<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

AK1 48801 65.1% 62.9% 62.6% 59.4% 53.2% 55.1% 56.6%<br />

(SK) 48963 10.8% 13.3% 13.7% 13.2% 14.5% 15.3% 15.1%<br />

49090 5.1% 4.4% 4.1% 6.6% 8.4% 6.7% 6.2%<br />

49123 5.8% 6.9% 6.5% 6.8% 10.2% 8.5% 8.0%<br />

48929 13.2% 12.5% 13.2% 14.0% 13.7% 14.4% 14.2%<br />

1.6% 1.8% 2.9% 6.1% 5.1% 4.4%<br />

Basislinie: Tal zu Tal<br />

Basislinie: Spline<br />

Basislinie: 4. Ableitung<br />

QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />

67.5% 70.1% 72.4% 53.8% 55.8% 57.5% 61.8% 65.6% 67.2%<br />

9.3% 10.2% 9.7% 14.4% 15.2% 15.0% 9.2% 11.2% 10.9%<br />

6.2% 3.8% 3.2% 8.2% 6.5% 5.8% 6.9% 5.0% 4.5%<br />

8.0% 5.9% 5.1% 10.0% 8.3% 7.7% 8.6% 6.1% 4.9%<br />

9.1% 10.0% 9.6% 13.6% 14.3% 14.1% 13.5% 12.2% 12.6%<br />

2.5% 2.8% 3.8% 5.8% 4.8% 4.0% 2.2% 0.6% 1.1%<br />

Molekül Massen Referenz Manuell MaxEnt<br />

In-House<br />

Lösung<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

AK1 23428 88.5% 86.4% 86.6% 83.4% 76.5% 82.4% 82.7%<br />

(LK) 23590 6.5% 7.6% 6.9% 6.3% 10.9% 8.4% 8.3%<br />

23612 2.3% 6.0% 3.8% 4.6% 8.4% 5.0% 5.0%<br />

23753 2.6% 0.0% 2.7% 5.7% 4.3% 4.3% 4.0%<br />

2.5% 1.2% 3.2% 7.1% 3.5% 3.3%<br />

Basislinie: Tal zu Tal<br />

Basislinie: Spline Basislinie: 4. Ableitung<br />

QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />

84.5% 88.3% 90.9% 77.0% 77.0% 84.4% 82.0% 85.4% 87.3%<br />

7.9% 6.2% 4.4% 10.7% 10.7% 7.2% 8.5% 5.9% 5.4%<br />

5.2% 3.0% 2.2% 8.2% 8.2% 5.3% 7.2% 5.9% 4.9%<br />

2.5% 2.6% 2.5% 4.1% 4.1% 3.0% 2.4% 2.8% 2.5%<br />

2.5% 0.4% 1.6% 6.8% 6.8% 2.5% 4.2% 2.4% 1.5%<br />

87


88<br />

Molekül Massen Referenz Manuell MaxEnt<br />

In-House<br />

Lösung<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

AK2 48765 4.7% 3.6% 3.9% 9.7% 5.6% 5.5% 4.5%<br />

49983 3.4% 3.2% 2.1% 2.8% 3.4% 3.2% 3.1%<br />

50211 29.3% 28.4% 25.8% 22.4% 24.7% 25.0% 25.2%<br />

50373 37.8% 36.4% 34.1% 29.9% 31.9% 32.2% 32.8%<br />

50414 6.1% 10.0% 13.8% 15.9% 14.2% 14.3% 14.6%<br />

50536 13.8% 12.0% 12.7% 11.5% 12.6% 12.1% 12.1%<br />

50576 5.0% 6.4% 7.6% 7.9% 7.7% 7.7% 7.7%<br />

1.9% 3.7% 5.9% 4.3% 4.3% 4.2%<br />

Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />

QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />

5.2% 5.2% 4.6% 5.6% 5.5% 4.6% 4.7% 4.9% 4.5%<br />

3.7% 3.4% 3.1% 3.5% 3.2% 3.1% 3.7% 3.2% 2.9%<br />

27.2% 27.1% 27.9% 24.6% 25.0% 25.2% 28.2% 27.2% 27.7%<br />

34.1% 34.7% 35.6% 31.8% 32.1% 32.8% 35.5% 35.5% 35.9%<br />

10.1% 10.4% 9.4% 14.3% 14.3% 14.6% 9.9% 9.9% 10.3%<br />

13.4% 12.7% 12.9% 12.6% 12.1% 12.1% 12.0% 13.0% 12.8%<br />

6.3% 6.6% 6.4% 7.7% 7.7% 7.7% 6.0% 6.3% 5.8%<br />

2.3% 2.3% 1.7% 4.4% 4.3% 4.2% 1.9% 2.0% 1.9%<br />

Molekül Massen Referenz Manuell MaxEnt<br />

In-House<br />

Lösung<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

AK3 48207 10.7% 11.2% 10.2% 5.7% 3.7% 7.9%<br />

(SK) 48296 9.7% 9.2% 5.8% 10.9% 7.3% 7.3%<br />

48334 32.5% 34.3% 28.3% 25.5% 20.5% 21.3%<br />

48387 3.4% 7.3% 3.5% 10.4% 11.4% 7.0%<br />

48426 6.6% 6.3% 7.0% 4.2% 6.5% 7.7%<br />

48455 5.3% 6.3% 4.2% 10.6% 7.0% 7.2%<br />

48472 1.6% 0.0% 2.9% 4.4% 8.7% 5.0%<br />

48510 15.5% 14.1% 18.3% 10.4% 11.9% 11.8%<br />

48541 6.6% 8.9% 10.6% 9.4% 9.1% 9.1%<br />

48560 5.7% 2.4% 6.7% 5.6% 7.5% 7.9%<br />

48599 1.3% 0.0% 1.4% 1.6% 3.8% 5.1%<br />

48688 1.2% 0.0% 1.1% 1.3% 2.6% 2.7%<br />

1.9% 2.2% 4.1% 5.4% 4.2%<br />

Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />

QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />

6.7% 12.4% 3.0% 7.6% 13.1% 11.3%<br />

7.4% 8.0% 7.2% 7.0% 8.9% 14.0%<br />

36.9% 37.3% 22.3% 25.5% 22.5% 38.2%<br />

7.9% 1.4% 11.8% 6.4% 1.0% 1.1%<br />

2.2% 4.9% 6.2% 7.2% 3.9% 4.9%<br />

2.2% 3.3% 6.8% 7.8% 5.1% 5.5%<br />

7.2% 1.1% 8.8% 3.2% 1.1% 0.9%<br />

16.4% 16.2% 12.4% 13.0% 10.3% 17.1%<br />

7.8% 8.3% 9.3% 9.3% 30.9% 4.9%<br />

3.4% 4.8% 7.4% 7.7% 1.2% 0.8%<br />

0.6% 1.2% 3.1% 4.2% 1.0% 0.7%<br />

1.3% 1.2% 1.8% 1.3% 1.1% 0.7%<br />

3.3% 1.9% 5.1% 3.0% 7.9% 2.7%


Molekül Massen Referenz Manuell MaxEnt<br />

In-House<br />

Lösung<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

AK3 24142 2.7% 1.6% 10.2% 3.1% 2.6%<br />

(LK) 24159 56.5% 41.3% 43.8% 41.5% 42.1%<br />

24181 6.2% 15.0% 15.9% 15.0% 14.9%<br />

24200 2.7% 15.8% 6.1% 13.9% 13.6%<br />

24246 25.8% 22.1% 20.5% 21.0% 21.3%<br />

24334 4.2% 3.7% 3.0% 4.3% 4.3%<br />

24424 0.8% 0.4% 0.6% 1.3% 1.2%<br />

8.4% 7.1% 8.0% 7.8%<br />

Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />

QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />

0.4% 0.4% 2.6% 2.3% 3.1% 7.4% 3.2%<br />

51.3% 51.8% 42.6% 43.2% 43.5% 40.9% 43.5%<br />

11.1% 10.6% 15.1% 14.9% 20.6% 20.3% 20.6%<br />

10.7% 10.6% 13.8% 13.7% 12.6% 13.1% 12.6%<br />

22.5% 22.7% 21.3% 21.3% 17.2% 15.6% 17.2%<br />

3.3% 3.3% 3.9% 3.9% 2.4% 2.2% 2.4%<br />

0.7% 0.6% 0.7% 0.7% 0.5% 0.5% 0.4%<br />

4.3% 4.2% 7.7% 7.5% 8.9% 9.9% 8.9%<br />

Molekül Massen Referenz Manuell MaxEnt<br />

In-House<br />

Lösung<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

AK4 49732 2.5% 3.2% 1.8% 1.7% 7.3% 5.1% 3.3%<br />

49813 4.5% 3.8% 3.7% 2.8% 9.2% 5.3% 4.8%<br />

50017 3.3% 4.8% 2.7% 13.7% 10.2% 11.6% 11.6%<br />

49960 52.0% 49.0% 52.7% 39.8% 32.0% 37.9% 40.5%<br />

50089 7.2% 6.1% 7.1% 5.9% 12.5% 8.0% 8.3%<br />

50121 22.7% 21.3% 25.1% 11.9% 17.2% 19.1% 20.9%<br />

50252 4.2% 5.1% 3.9% 19.9% 5.6% 5.8% 5.1%<br />

50279 3.6% 6.7% 3.9% 4.2% 6.1% 7.1% 5.6%<br />

1.8% 1.0% 8.8% 8.4% 6.2% 5.1%<br />

Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />

QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />

8.0% 4.0% 2.5% 7.3% 5.1% 3.3% 5.9% 2.0% 2.7%<br />

10.2% 4.7% 4.4% 9.2% 5.3% 4.8% 10.9% 21.2% 5.0%<br />

4.0% 5.1% 4.6% 10.2% 11.6% 11.4% 3.8% 1.9% 4.5%<br />

41.4% 51.1% 55.7% 32.0% 37.9% 40.6% 40.8% 40.2% 54.0%<br />

11.5% 4.2% 4.0% 12.5% 8.0% 8.3% 12.9% 8.0% 5.6%<br />

18.3% 22.1% 24.6% 17.2% 19.1% 20.9% 17.8% 19.4% 24.7%<br />

2.9% 3.3% 2.3% 5.6% 5.8% 5.1% 3.1% 3.5% 1.9%<br />

3.7% 5.5% 1.9% 6.1% 7.1% 5.6% 4.9% 3.9% 1.7%<br />

5.2% 1.6% 2.1% 8.4% 6.2% 5.0% 5.4% 7.4% 1.6%<br />

Molekül Massen Referenz Manuell<br />

MaxEnt<br />

In-House<br />

Lösung<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

AK5 50564 13.0% 12.1% 11.4% 8.8% 10.0% 9.3%<br />

50726 18.5% 25.8% 11.7% 12.7% 12.1% 12.8%<br />

50885 5.6% 8.7% 7.9% 8.5% 10.6% 9.2%<br />

50693 18.7% 18.1% 12.3% 9.6% 10.0% 10.6%<br />

50854 19.8% 20.1% 10.3% 11.2% 12.8% 11.9%<br />

51014 2.5% 0.5% 4.8% 6.4% 7.0% 6.3%<br />

51036 3.6% 2.6% 6.3% 6.7% 6.6% 7.4%<br />

51195 3.1% 2.6% 6.4% 6.6% 6.1% 6.5%<br />

51162 4.5% 3.2% 7.3% 6.9% 5.0% 6.6%<br />

51324 3.2% 1.6% 6.4% 6.4% 7.0% 6.2%<br />

49119 2.4% 1.4% 6.1% 7.6% 5.6% 6.3%<br />

49248 5.1% 3.2% 9.1% 8.8% 7.4% 6.9%<br />

2.6% 4.6% 5.1% 4.7% 4.7%<br />

89


90<br />

Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />

QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />

11.6% 17.0% 18.6% 9.1% 10.4% 10.1% 13.7% 16.4%<br />

16.6% 27.6% 20.5% 16.3% 15.7% 17.4% 17.0% 21.5%<br />

5.0% 5.4% 4.7% 8.9% 9.9% 10.2% 3.8% 5.2%<br />

9.3% 13.7% 12.1% 11.2% 13.7% 13.6% 14.9% 21.0%<br />

14.8% 17.7% 19.4% 13.1% 13.7% 14.4% 17.7% 19.3%<br />

5.0% 1.8% 3.3% 4.8% 4.4% 4.2% 1.8% 3.4%<br />

5.3% 3.9% 5.6% 5.6% 4.9% 5.3% 4.7% 3.6%<br />

5.0% 0.1% 2.9% 5.2% 6.5% 4.9% 4.5% 1.7%<br />

5.9% 5.2% 1.9% 5.7% 7.1% 5.2% 4.4% 1.3%<br />

4.8% 0.5% 2.6% 4.5% 4.6% 4.2% 3.0% 0.6%<br />

7.0% 2.2% 3.2% 6.9% 4.0% 5.0% 4.4% 0.9%<br />

9.8% 5.0% 5.3% 8.9% 5.3% 5.5% 10.1% 5.2%<br />

3.9% 3.5% 2.8% 3.9% 3.2% 2.9% 2.2% 2.0%<br />

Molekül Massen Referenz Manuell MaxEnt<br />

In-House<br />

Lösung<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

AK6 50602 70.0% 75.8% 63.6% 47.7% 48.9% 50.9%<br />

50764 25.0% 22.3% 21.6% 24.1% 24.7% 25.1%<br />

50927 3.0% 1.1% 6.4% 13.6% 13.3% 12.5%<br />

49157 2.0% 0.8% 8.3% 14.7% 13.1% 11.5%<br />

3.4% 5.1% 13.9% 13.0% 11.7%<br />

Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />

QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />

67.3% 69.3% 73.9% 61.7% 63.9% 66.0% 67.2% 70.0% 75.9%<br />

22.0% 21.4% 20.7% 23.8% 24.2% 25.4% 23.2% 22.5% 22.4%<br />

4.0% 4.0% 2.7% 5.9% 5.6% 4.4% 2.5% 1.7% 0.5%<br />

6.8% 5.3% 2.8% 8.6% 6.4% 4.2% 7.1% 5.8% 1.2%<br />

3.2% 2.5% 2.9% 5.5% 4.0% 2.4% 3.1% 2.4% 3.5%<br />

Molekül Massen Referenz Manuell MaxEnt<br />

In-House<br />

Lösung<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

AK7 35498 7.6% 7.5% 6.8% 6.2% 7.9% 7.5% 7.6%<br />

35581 11.6% 11.4% 11.1% 11.8% 11.1% 11.1% 11.2%<br />

35662 14.6% 14.4% 14.3% 14.9% 14.0% 14.2% 14.1%<br />

35743 16.3% 16.0% 16.3% 16.4% 15.8% 15.9% 15.9%<br />

35825 16.5% 16.5% 16.6% 16.5% 16.1% 16.2% 16.2%<br />

35906 14.9% 14.8% 15.2% 15.0% 14.9% 15.0% 15.0%<br />

35986 10.4% 10.9% 11.0% 11.0% 11.1% 11.1% 11.1%<br />

36063 8.2% 8.5% 8.7% 8.1% 9.2% 9.0% 8.9%<br />

0.2% 0.5% 0.6% 0.5% 0.5% 0.4%<br />

Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />

QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />

7.7% 7.4% 7.2% 7.4% 7.1% 7.1% 7.3% 7.1% 6.5%<br />

11.3% 11.4% 11.5% 11.0% 11.0% 11.0% 11.3% 11.3% 11.5%<br />

14.5% 14.6% 14.7% 14.2% 14.3% 14.3% 14.5% 14.5% 14.7%<br />

16.2% 16.3% 16.5% 16.1% 16.2% 16.3% 16.3% 16.3% 16.5%<br />

16.4% 16.5% 16.6% 16.5% 16.5% 16.6% 16.4% 16.4% 16.7%<br />

14.9% 15.0% 15.0% 15.1% 15.2% 15.2% 15.0% 15.0% 15.3%<br />

10.4% 10.6% 10.6% 10.9% 11.0% 11.0% 10.7% 10.8% 10.9%<br />

8.5% 8.2% 8.1% 8.9% 8.7% 8.7% 8.6% 8.6% 8.0%<br />

0.2% 0.1% 0.2% 0.4% 0.4% 0.4% 0.2% 0.3% 0.5%


Molekül Massen Referenz Manuell MaxEnt<br />

In-House<br />

Lösung<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

AK8 48765.2 4.7% 4.3% 4.5% 9.8% 9.6% 7.7% 6.0%<br />

49983.1 50.9% 49.7% 51.5% 41.7% 43.1% 45.2% 46.3%<br />

50210.9 22.4% 22.9% 22.4% 22.3% 20.2% 21.1% 21.3%<br />

50373.1 4.0% 4.0% 3.5% 5.9% 4.9% 4.9% 5.1%<br />

50414.4 10.0% 10.7% 10.7% 10.4% 10.8% 10.8% 10.9%<br />

50536.0 3.0% 3.0% 2.0% 5.0% 5.0% 4.0% 4.1%<br />

50576.4 5.0% 5.4% 5.4% 5.0% 6.4% 6.4% 6.5%<br />

0.6% 0.6% 4.1% 3.7% 2.6% 2.1%<br />

Basislinie: Tal zu Tal Basislinie: Spline<br />

Basislinie: 4. Ableitung<br />

QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />

7.2% 4.9% 4.6% 9.2% 7.2% 5.3% 8.0% 4.8% 5.1%<br />

48.4% 49.8% 50.8% 45.5% 47.3% 49.1% 49.3% 50.6% 51.0%<br />

21.7% 22.3% 22.8% 20.6% 21.6% 21.7% 21.7% 22.0% 22.0%<br />

3.8% 4.1% 4.1% 4.2% 4.3% 4.2% 3.7% 4.0% 4.0%<br />

10.0% 10.5% 9.8% 10.5% 10.6% 10.8% 9.8% 10.3% 10.5%<br />

4.0% 2.9% 2.5% 4.3% 3.2% 3.2% 2.6% 3.0% 2.6%<br />

5.0% 5.6% 5.3% 5.7% 5.8% 5.8% 4.9% 5.4% 4.8%<br />

1.4% 0.5% 0.3% 2.8% 1.7% 0.9% 1.4% 0.3% 0.3%<br />

Molekül Massen Referenz Manuell MaxEnt<br />

In-House<br />

Lösung<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

AK9 49732 2.5% 3.6% 1.6% 8.7% 7.4% 5.3% 3.5%<br />

49813 45.6% 45.9% 48.3% 27.3% 34.0% 35.3% 38.4%<br />

50017 7.0% 6.3% 5.9% 4.1% 8.8% 10.0% 9.8%<br />

49960 15.7% 14.6% 14.5% 10.0% 12.9% 14.8% 14.7%<br />

50089 3.5% 3.9% 3.4% 2.7% 10.5% 5.7% 5.6%<br />

50121 1.5% 4.5% 1.4% 3.5% 4.7% 4.1% 4.0%<br />

50252 4.2% 3.0% 3.0% 26.2% 5.8% 6.1% 5.3%<br />

50279 20.0% 18.2% 22.0% 17.5% 15.9% 18.8% 18.8%<br />

1.4% 1.4% 10.6% 5.5% 4.2% 3.1%<br />

Basislinie: Tal zu Tal Basislinie: Spline Basislinie: 4. Ableitung<br />

QA1 QA2 QA3 QA1 QA2 QA3 QA1 QA2 QA3<br />

7.6% 4.2% 2.5% 7.0% 4.5% 2.6% 5.2% 3.2% 1.9%<br />

43.0% 44.6% 49.5% 35.7% 37.6% 41.1% 44.5% 46.8% 50.4%<br />

5.2% 6.6% 6.6% 8.5% 9.7% 9.4% 6.2% 4.9% 6.1%<br />

11.8% 13.5% 14.8% 13.0% 15.0% 14.9% 12.2% 13.6% 17.0%<br />

10.1% 3.0% 2.7% 10.3% 5.0% 4.9% 11.3% 4.2% 3.6%<br />

1.5% 1.3% 0.8% 4.1% 3.3% 3.1% 1.1% 1.9% 1.1%<br />

3.4% 4.2% 2.8% 5.3% 5.5% 4.6% 2.1% 6.2% 1.5%<br />

17.5% 22.6% 20.4% 16.2% 19.4% 19.4% 17.4% 19.2% 18.6%<br />

3.6% 1.4% 1.5% 4.9% 3.2% 2.0% 3.4% 1.4% 2.1%<br />

91


B. Quantifizierungsergebnisse empirischer Spektren<br />

Ergebnisse der Quantifizierung <strong>von</strong> 10 Antikörper-Spektren mit verschiedenen Methoden.<br />

Moleküle, die mittels der 4. Ableitung quantifiziert wurden, sind durch das Symbol * markiert.<br />

Bei AK4 und AK5 wurden manche Massen zusammengefasst, weil diese eine gemeinsame<br />

Glykosylierungsbasis haben.<br />

Molekül Massen<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

Basislinie: Tal zu Tal<br />

QA1 QA2 QA3<br />

AK1 50116 11,1% 11,1% 11,5% 8,3% 9,7% 8,7%<br />

50278 20,0% 20,0% 22,2% 21,8% 25,7% 26,6%<br />

50440 25,5% 25,5% 25,3% 30,7% 29,5% 30,5%<br />

50601 14,9% 14,9% 14,0% 13,8% 11,7% 11,6%<br />

50762 16,9% 16,9% 16,3% 16,8% 16,7% 16,4%<br />

50909 11,7% 11,7% 10,9% 8,7% 6,8% 6,3%<br />

92<br />

Manuell /<br />

In-House<br />

MaxEnt<br />

QA1<br />

Basislinie: Spline<br />

QA2 QA3<br />

Basislinie: 4. Ableitung<br />

QA1 QA2 QA3<br />

9,5% 12,7% 9,3% 9,3% 9,7% 9,6% 12,4% 9,5%<br />

25,4% 24,2% 21,1% 21,1% 24,2% 22,8% 29,2% 29,6%<br />

29,2% 30,7% 28,5% 28,5% 28,6% 31,5% 31,3% 34,2%<br />

11,2% 13,9% 14,3% 14,3% 12,7% 12,5% 10,6% 11,0%<br />

17,3% 12,7% 16,9% 16,9% 16,4% 17,1% 9,9% 10,8%<br />

7,4% 5,8% 10,0% 10,0% 8,4% 6,5% 6,6% 4,9%<br />

Molekül Massen<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

Basislinie: Tal zu Tal<br />

QA1 QA2 QA3<br />

AK2 50602 46,7% 48,8% 50,3% 63,5% 63,6% 68,7%<br />

* 50764 23,6% 24,4% 23,7% 21,6% 23,2% 23,4%<br />

50927 14,2% 13,1% 13,1% 7,5% 7,4% 5,5%<br />

49157 15,5% 13,7% 12,9% 7,5% 5,9% 2,5%<br />

Manuell /<br />

In-House<br />

MaxEnt<br />

QA1<br />

Basislinie: Spline<br />

QA2 QA3<br />

Basislinie: 4. Ableitung<br />

QA1 QA2 QA3<br />

69,5% 83,0% 54,4% 55,9% 62,8% 58,2% 60,2% 72,3%<br />

25,5% 14,3% 23,2% 24,2% 24,8% 22,0% 23,5% 22,0%<br />

3,1% 2,5% 10,4% 9,8% 5,9% 9,9% 8,0% 3,3%<br />

2,0% 0,2% 12,1% 10,1% 6,5% 9,9% 8,3% 2,4%<br />

Molekül Massen<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

Basislinie: Tal zu Tal<br />

QA1 QA2 QA3<br />

AK3 50602 47,8% 50,0% 49,6% 63,8% 66,4% 70,6%<br />

* 50764 23,4% 24,3% 24,8% 22,3% 23,6% 24,5%<br />

50927 13,9% 12,9% 13,3% 6,6% 5,3% 3,2%<br />

49157 15,2% 12,9% 12,4% 7,3% 4,7% 1,7%<br />

Manuell /<br />

In-House<br />

MaxEnt<br />

QA1<br />

Basislinie: Spline<br />

QA2 QA3<br />

Basislinie: 4. Ableitung<br />

QA1 QA2 QA3<br />

69,5% 83,0% 56,1% 58,9% 61,8% 64,6% 65,8% 74,3%<br />

25,5% 14,3% 22,8% 24,2% 24,2% 20,7% 24,2% 23,7%<br />

3,1% 2,5% 9,7% 8,7% 7,6% 6,2% 5,2% 0,9%<br />

2,0% 0,2% 11,4% 8,2% 6,4% 8,6% 4,9% 1,1%


Molekül<br />

AK4 49813<br />

50015<br />

50182<br />

Manuell /<br />

In-House<br />

9,0%<br />

34,0%<br />

40,0%<br />

17,0%<br />

Molekül<br />

49901<br />

49959<br />

50089<br />

50121<br />

50063<br />

50222<br />

50282<br />

AK5 49732<br />

49813<br />

50017<br />

Manuell /<br />

In-House<br />

9,3%<br />

54,6%<br />

29,9%<br />

Massen<br />

MaxEnt<br />

10,1%<br />

35,6%<br />

37,2%<br />

17,0%<br />

Massen<br />

49960<br />

50089<br />

50121<br />

50252<br />

Basislinie: nicht abgezogen<br />

Basislinie: Tal zu Tal<br />

QA1 QA2 QA3 QA1 QA2 QA3<br />

26,8% 29,8% 29,2%<br />

18,4% 19,8% 19,1%<br />

Basislinie: Spline Basislinie: 4. Ableitung<br />

QA1 QA2 QA3 QA1 QA2 QA3<br />

16,3%<br />

15,4% 8,2% 5,5%<br />

41,5% 39,2% 39,4%<br />

Basislinie: nicht abgezogen<br />

Basislinie: Tal zu Tal<br />

QA1 QA2 QA3 QA1 QA2 QA3<br />

28,9% 24,3%<br />

31,4% 29,4%<br />

13,9%<br />

31,5% 31,1%<br />

37,8% 38,4% 40,2%<br />

27,4% 28,0%<br />

25,4% 10,3% 9,2%<br />

51,3%<br />

59,1% 60,9%<br />

26,9% 26,3%<br />

50279 8,7% 10,0% 9,2% 3,6% 3,6% 3,6%<br />

MaxEnt<br />

14,5%<br />

53,8%<br />

21,4%<br />

33,5%<br />

18,8%<br />

34,5%<br />

28,8%<br />

17,9% 19,4%<br />

24,6%<br />

22,7%<br />

Basislinie: Spline Basislinie: 4. Ableitung<br />

QA1 QA2 QA3 QA1 QA2 QA3<br />

26,2% 19,0% 15,2%<br />

41,9% 43,6% 47,6%<br />

25,3% 24,5% 28,4%<br />

19,0% 22,3%<br />

32,9% 34,8%<br />

20,2%<br />

29,8%<br />

12,2% 5,5%<br />

39,4% 36,6%<br />

33,6%<br />

14,8%<br />

39,2%<br />

14,8%<br />

19,8%<br />

42,6%<br />

15,3%<br />

15,0%<br />

4,3%<br />

36,1%<br />

44,8%<br />

14,7%<br />

14,7%<br />

30,3% 11,4% 8,8%<br />

45,7% 53,0% 59,3%<br />

17,9%<br />

37,5%<br />

27,4%<br />

40,5%<br />

28,3%<br />

6,2% 6,5% 7,5% 9,0% 7,4% 6,0% 8,3% 3,6%<br />

93


Molekül Massen<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

Basislinie: Tal zu Tal<br />

QA1 QA2 QA3<br />

AK6 35498 7,7% 7,7% 7,6% 4,1% 4,1% 3,4%<br />

35581 11,6% 11,6% 11,6% 12,2% 12,2% 12,2%<br />

35662 14,6% 14,6% 14,2% 17,3% 17,3% 17,6%<br />

35743 16,2% 16,2% 16,4% 20,1% 20,1% 20,5%<br />

35825 16,4% 16,5% 16,7% 19,5% 19,5% 19,7%<br />

35906 14,9% 14,9% 14,9% 15,8% 15,8% 16,2%<br />

35986 10,4% 10,4% 10,5% 7,1% 7,1% 7,0%<br />

36063 8,2% 8,2% 8,1% 3,9% 3,9% 3,5%<br />

94<br />

Manuell /<br />

In-House<br />

MaxEnt<br />

QA1<br />

Basislinie: Spline<br />

QA2 QA3<br />

Basislinie: 4. Ableitung<br />

QA1 QA2 QA3<br />

6,0% 7,4% 4,6% 4,6% 4,1% 3,1% 3,1% 2,4%<br />

11,0% 12,3% 11,0% 11,0% 11,1% 11,6% 11,6% 11,9%<br />

16,0% 15,3% 16,0% 16,0% 16,3% 16,9% 16,9% 17,1%<br />

18,0% 16,7% 18,8% 18,8% 19,3% 20,1% 20,1% 20,2%<br />

19,0% 16,9% 19,1% 19,1% 19,4% 20,4% 20,4% 20,9%<br />

16,0% 15,7% 16,4% 16,5% 16,2% 16,7% 16,7% 17,2%<br />

9,0% 9,8% 8,9% 8,9% 8,8% 7,1% 7,1% 6,9%<br />

5,0% 5,8% 5,2% 5,2% 4,9% 4,1% 4,1% 3,5%<br />

Molekül Massen<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

Basislinie: Tal zu Tal<br />

QA1 QA2 QA3<br />

AK7 35340 10,6% 10,6% 10,5% 9,7% 9,7% 9,7%<br />

35420 16,3% 16,3% 16,3% 18,1% 18,1% 18,3%<br />

35503 20,9% 20,9% 21,0% 24,0% 24,0% 24,1%<br />

35584 20,9% 20,9% 21,4% 24,0% 24,0% 24,3%<br />

35665 15,2% 15,2% 15,1% 14,8% 14,8% 15,0%<br />

35745 9,7% 9,7% 9,8% 6,7% 6,7% 6,6%<br />

35825 6,5% 6,5% 6,0% 2,6% 2,6% 2,1%<br />

Manuell /<br />

In-House<br />

MaxEnt<br />

QA1<br />

Basislinie: Spline<br />

QA2 QA3<br />

Basislinie: 4. Ableitung<br />

QA1 QA2 QA3<br />

8,0% 11,0% 9,3% 9,3% 8,4% 9,0% 9,0% 8,4%<br />

14,0% 16,8% 17,1% 17,1% 16,8% 17,6% 17,6% 17,8%<br />

20,0% 20,8% 23,3% 23,3% 23,6% 24,2% 24,2% 24,5%<br />

28,0% 21,3% 23,4% 23,4% 24,2% 24,5% 24,5% 25,0%<br />

18,0% 16,0% 15,5% 15,5% 16,0% 15,5% 15,5% 15,6%<br />

9,0% 9,4% 8,0% 8,0% 8,1% 6,7% 6,7% 6,4%<br />

3,0% 4,7% 3,6% 3,6% 3,0% 2,7% 2,7% 2,3%


Molekül Massen<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

Basislinie: Tal zu Tal<br />

QA1 QA2 QA3<br />

AK8 35342 13,2% 13,2% 12,9% 12,3% 12,3% 12,2%<br />

35422 19,2% 19,2% 19,4% 22,4% 22,4% 22,4%<br />

35504 23,1% 23,1% 23,3% 27,3% 27,3% 27,8%<br />

35586 21,9% 21,9% 22,1% 24,7% 24,7% 25,2%<br />

35668 13,8% 13,8% 13,8% 10,6% 10,6% 10,4%<br />

35747 8,7% 8,7% 8,5% 2,7% 2,7% 2,0%<br />

Manuell /<br />

In-House<br />

MaxEnt<br />

QA1<br />

Basislinie: Spline<br />

QA2 QA3<br />

Basislinie: 4. Ableitung<br />

QA1 QA2 QA3<br />

13,0% 13,5% 11,6% 11,6% 10,8% 13,2% 13,2% 13,0%<br />

21,0% 20,3% 20,5% 20,5% 21,1% 19,2% 19,2% 19,4%<br />

26,0% 23,7% 26,3% 26,3% 26,5% 23,1% 23,1% 23,3%<br />

24,0% 23,1% 24,5% 24,5% 24,8% 21,9% 21,9% 22,2%<br />

12,0% 14,0% 12,4% 12,4% 12,4% 13,8% 13,8% 13,7%<br />

4,0% 5,5% 4,7% 4,7% 4,4% 8,7% 8,7% 8,4%<br />

Molekül Massen<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

Basislinie: Tal zu Tal<br />

QA1 QA2 QA3<br />

AK9 35341 14,1% 14,1% 14,0% 14,4% 14,4% 14,1%<br />

35422 20,3% 20,3% 20,3% 24,3% 24,3% 24,5%<br />

35504 22,3% 22,3% 22,4% 25,2% 25,2% 25,7%<br />

35585 22,8% 22,8% 22,9% 26,3% 26,3% 27,1%<br />

35667 11,7% 11,7% 11,6% 6,5% 6,5% 6,2%<br />

35744 8,9% 8,9% 8,8% 3,3% 3,3% 2,5%<br />

Manuell /<br />

In-House<br />

MaxEnt<br />

QA1<br />

Basislinie: Spline<br />

QA2 QA3<br />

Basislinie: 4. Ableitung<br />

QA1 QA2 QA3<br />

16,0% 14,8% 12,9% 12,9% 12,3% 13,6% 13,6% 13,4%<br />

24,0% 21,9% 22,0% 22,0% 21,1% 23,8% 23,8% 24,3%<br />

23,0% 23,1% 25,0% 25,0% 25,3% 25,8% 25,8% 26,1%<br />

24,0% 24,5% 25,7% 25,7% 27,1% 27,3% 27,3% 27,9%<br />

9,0% 10,5% 9,4% 9,4% 9,5% 6,2% 6,2% 5,9%<br />

4,0% 5,2% 5,2% 5,2% 4,7% 3,3% 3,3% 2,5%<br />

Molekül Massen<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

Basislinie: Tal zu Tal<br />

QA1 QA2 QA3<br />

AK10 50601 47,0% 49,8% 49,9% 62,0% 64,3% 69,4%<br />

* 50763 23,6% 24,2% 25,6% 21,8% 22,7% 23,5%<br />

50927 14,0% 12,9% 11,2% 7,8% 6,6% 4,1%<br />

49152 15,4% 13,1% 13,4% 8,4% 6,5% 3,0%<br />

Manuell /<br />

In-House<br />

MaxEnt<br />

QA1<br />

Basislinie: Spline<br />

QA2 QA3<br />

Basislinie: 4. Ableitung<br />

QA1 QA2 QA3<br />

69,0% 69,0% 54,4% 56,9% 59,9% 57,6% 59,4% 74,7%<br />

25,6% 28,0% 23,1% 24,1% 24,8% 21,7% 22,7% 21,4%<br />

3,4% 2,9% 10,3% 9,6% 7,7% 10,5% 9,6% 2,9%<br />

2,0% 0,1% 12,2% 9,4% 7,6% 10,2% 8,3% 0,9%<br />

95


Molekül Massen<br />

Basislinie: nicht abgezogen<br />

QA1 QA2 QA3<br />

Basislinie: Tal zu Tal<br />

QA1 QA2 QA3<br />

AK11 50564 8,4% 13,1% 7,4% 10,0% 3,3% 16,9%<br />

50726 10,7% 11,6% 12,3% 11,2% 26,5% 16,9%<br />

50885 8,6% 7,3% 9,0% 6,5% 3,0% 0,8%<br />

50693 10,9% 11,8% 11,1% 13,5% 20,4% 20,7%<br />

50854 11,3% 13,4% 11,1% 15,9% 19,2% 19,6%<br />

51014 6,8% 5,8% 7,4% 4,6% 3,7% 4,5%<br />

51036 7,4% 7,4% 7,5% 6,0% 4,1% 1,5%<br />

51195 6,7% 8,5% 7,0% 4,9% 1,7% 4,6%<br />

51162 7,4% 6,7% 7,5% 6,6% 2,5% 1,1%<br />

51324 6,9% 4,4% 6,7% 6,5% 9,9% 4,4%<br />

49119 7,9% 4,7% 5,9% 8,6% 2,7% 4,3%<br />

49248 7,0% 5,3% 7,2% 5,9% 3,1% 4,9%<br />

96<br />

Manuell /<br />

In-House<br />

MaxEnt<br />

QA1<br />

Basislinie: Spline<br />

QA2 QA3<br />

Basislinie: 4. Ableitung<br />

QA1 QA2 QA3<br />

13,0% 15,3% 8,4% 14,2% 8,1% 11,1% 7,1% 6,7%<br />

18,5% 18,9% 11,7% 12,4% 11,9% 17,7% 12,6% 22,5%<br />

5,6% 2,0% 8,7% 7,0% 9,9% 5,5% 4,0% 10,0%<br />

18,7% 20,5% 12,0% 12,7% 10,7% 15,1% 17,4% 25,9%<br />

19,8% 20,4% 12,6% 14,7% 12,5% 13,8% 12,2% 20,6%<br />

2,5% 1,6% 6,2% 5,3% 7,9% 2,3% 0,0% 1,3%<br />

3,6% 5,4% 7,0% 7,3% 7,0% 6,9% 0,0% 2,2%<br />

3,1% 4,5% 6,0% 8,7% 6,7% 4,0% 1,1% 1,8%<br />

4,5% 4,1% 6,9% 6,4% 6,6% 7,2% 0,0% 2,2%<br />

3,2% 3,4% 6,2% 3,5% 5,8% 3,9% 2,6% 0,8%<br />

2,2% 1,3% 7,8% 3,6% 6,5% 6,6% 1,0% 1,2%<br />

5,1% 2,5% 6,5% 4,3% 6,5% 5,9% 42,0% 5,0%


C. Massfinder II<br />

Die Hauptseite <strong>von</strong> Massfinder II ist in Abb. C.1 zu sehen. Der obere Bereich enthält das ESI-<br />

MS-Spektrum und der untere Bereich enthält die Maximum-Entropie-Entfaltung des Spektrums.<br />

Die Peakserien werden im ESI-Spektrum vom Programm durch farbige Linien markiert.<br />

Dabei entspricht jede Farbe einer anderen Masse. Auf dieser Seite besteht die Möglichkeit,<br />

das Spektrum auf vorhandene Massen zu analysieren. Hierzu kann man sich die <strong>von</strong> MaxEnt<br />

berechneten Massen als Linien-Peakserien oder Isotopenverteilte-Peakserien anzeigen lassen<br />

und verifizieren, ob diese auch tatsächlich im Spektrum vorkommen oder nicht. Des Weiteren<br />

hat man hier die Möglichkeiten, das Spektrum zu Glätten, die Basislinie abzuziehen, Peaks für<br />

die Quantifizierung zu selektieren usw.<br />

Abb. C.1: Hauptseite <strong>von</strong> Massfinder II.<br />

Die nächste Seite (vgl. Abb. C.2) ist für die qualitative Auswertung konzipiert. Hier werden<br />

für eine Masse automatisch die wahrscheinlichsten Modifikationen aus einer gegebenen Modifikationsliste<br />

gefunden. Bei der Suchmethode kann zwischen direkter Suche und genetischem<br />

Algorithmus gewählt werden.<br />

97


Auf die Abbildung der dritten Seite wird verzichtet. Sie enthält eine Gesamtübersicht aller<br />

Massen, derer Strukturen und derer Quantitäten. Der Report kann für die weitere Protokollierung<br />

im ASCII-Format exportiert werden.<br />

Die letzte Seite ist für die Bestimmung der Hüllkurve zuständig (vgl. Abb. C.3). Für jede<br />

Masse kann hier die Hüllkurve im Diagramm dargestellt werden. Ein Algorithmus filtert im<br />

Hintergrund automatisch diejenigen Peaks heraus, welche wahrscheinlich Ausreißer sind<br />

(blaue Kreise). Das Fitting erfolgt dann auf die übrig gebliebenen (roten) Punkte. Die angepasste<br />

Hüllkurve ist rot dargestellt. Die Basisfunktionen der Hüllkurve sind in grau dargestellt.<br />

Um die Güte des Fittings zu beurteilen, werden <strong>von</strong> allen Parametern die Vertrauensintervalle<br />

sowie der R² Wert angegeben. Sollte ein Fitting misslingen, besteht die Möglichkeit,<br />

die Startparameter manuell festzulegen und durch Drücken <strong>von</strong> „Find & Update“ das Fitting<br />

erneut zu starten. Beim Drücken des Knopfes „Autofit & Update“ hingegen wird versucht<br />

die besten Startparameter automatisch zu ermitteln. Sollte die Ursache eines schlechten Fittings<br />

nicht an den Startparametern liegen, sondern an der Anzahl verwendeter Basisfunktionen,<br />

so kann diese angepasst werden. Standardmäßig werden zwei Basisfunktionen verwendet.<br />

Die Anzahl kann jedoch zwischen 1 und 4 variiert werden. Sobald das Fitting ein akzep-<br />

98<br />

Abb. C.2: Zuweisung <strong>von</strong> Strukturen.


tables Resultat hat, kann dies dem Programm durch Drücken des Knopfes „Model accepted“<br />

mitgeteilt werden. Die Hüllkurve der Peakserie wird daraufhin im Spektrum aktualisiert.<br />

Abb. C.3: Fitting der Hüllkurve.<br />

99


100


Literaturverzeichnis<br />

ÄrzteZeitung Herceptin bessert Chancen bei frühem Brustkrebs, Ärzte Zeitung,<br />

03.06.2005<br />

Budzikiewicz92 Massenspektrometrie – Eine Einführung, Herbert Budzikiewicz, 3.<br />

erw. Aufl., Weinheim / New York / Basel / Cambridge, VCH, 1992<br />

Chang84 Chang S. Hsu, Anal. Chem. 1984, 56, 1356-1361<br />

Chapman92 John R. Chapman and Richard T. Gallagher, Organic Mass Spectrometry,<br />

Vol. 27, 195-203 (1992)<br />

Dobo01 Andras Dobo and Igor A. Kaltashov, Anal. Chem. 2001, 73, 4763-<br />

4773<br />

Dobo03 Anirban Mohimen, Andras Dobo, Joshua K. Hoerner, Igor A.<br />

Kltashov, Anal. Chem. 2003, 75, 4139-4147<br />

ELehmann05 Computergestützte Auswertung <strong>von</strong> Antikörper-<strong>Massenspektren</strong>,<br />

Eckhard Lehmann, Diplomarbeit Fachhochschule Weihenstephan,<br />

2005<br />

EncyclVol2 Encyclopedia of Immunology, 2nd edition, Vol Two, P.J. Delves,<br />

Academic Press, 1998, p. 1001<br />

Fenn89 J. B. Fenn, M. Mann, C. K. Meng, S. F. Wong, C. M. Whitehouse,<br />

Science (246), 1989, 64-71<br />

Fernandez04 Jorge Fernander-de-Cossio et al., Nucleic Acids Research, 2004, Vol.<br />

32, Web Server issue<br />

Gross04 Mass Spectrometry – A Textbook, Jürgen H. Gross, Springer Verlag<br />

Berlin Heidelberg, 2004<br />

Gross99 Skript Massenspektrometrie zum Kurs Spektroskopische Methoden,<br />

Dr. J. H. Gross, OCI, INF 270, Uni Heidelberg,<br />

http://www.archaeometrielabor.com/Bilder/pdf/Skript99.pdf,<br />

(Sep. 2005)<br />

101


Haver05 Prof. Tom O’Haver, Introduction to Signal Processing: Signals and<br />

noise,<br />

http://www.wam.umd.edu/~toh/spectrum/SignalsAndNoise.html,<br />

(Sep. 2005)<br />

IUPAC IUPAC Compendium of Chemical Terminology, 2nd Edition, 1997,<br />

http://www.iupac.org/goldbook/M03902.pdf (Sep. 2005)<br />

Jefferis05 Royston Jefferis, Biotechnol. Prog. 2005, 21, 11-16<br />

KinLev McKinley, S. and Levine, M., Cubic Spline Interpolation,<br />

http://online.redwoods.cc.ca.us/instruct/darnold/laproj/Fall98/SkyMeg<br />

/Proj.PDF (Sep. 2005)<br />

Klein91 Immunologie, Jan Klein, 1. Aufl., Weinheim / New York / Basel /<br />

Cambridge, VCH, 1991<br />

Lehmann96 Massenspektrometrie in der Biochemie, Wolf D. Lehmann, Heidelberg<br />

/ Berlin / Oxford, Spektrum Akademischer Verlag, 1996<br />

Lourakis05 Manolis Lourakis, Levenberq-Marquardt non-linear least squares algorithms<br />

in C/C++,<br />

http://www.ics.forth.gr/~lourakis/levmar/ (Sep. 2005)<br />

Madsen04 K. Madsen, H.B. Nielsen, O. Tingleff, Technical University of Denmark,<br />

Lecture Notes, April 2004,<br />

http://www.imm.dtu.dk/courses/02611/nllsq.pdf (Sep. 2005)<br />

Motulsky Harvey Motulsky and Arthur Christopoulos, Fitting Models to Data<br />

Using Linear and Nonlinear Regression,<br />

http://www.curvefit.com/manuals/Prism4/RegressionBook.pdf<br />

(Sep. 2005)<br />

�R Numerical Recipes in C, 2nd edition, William H. Press, Saul A. Teukolsky,<br />

William T. Vetterling, Brian P. Flannery, Cambridge University<br />

Press, 2002<br />

Raju03 Glycosylation Variations with Expression Systems, T. Shantha Raju,<br />

BioProcess International, April 2003<br />

102


Reinhold92 Bruce B. Reinhold and Vernon N. Reinhold, J. Am. Soc. Mass Spectrom.<br />

1992, 3, 207-215<br />

Rockwood95 Alan L. Rockwood, Steven L. Van Orden, and Richard D. Smith,<br />

Anal. Chem. 1995, 67, 2699-2704<br />

Šamalikova03 Maria Šamalikova and Rita Grandori, Journal of Mass Spectrometry,<br />

2003, 38, 941-947<br />

SavGol64 Abraham Savitzky and Marcel J. E. Golay, Anal. Chem. Vol 36 No. 8<br />

July 1964, pp. 1627<br />

Schmieder97 Peter Schmieder et al., J. of Magnetic Resonance 1997, 125, 332-339<br />

Senko95 M. W. Senko et al, J. Am. Soc. Mass Spectrom. 1995, 6, 229-233<br />

Stern Brustkrebs – Eine neue Ära, Stern, 02.06.2005<br />

Stryer02 Jeremy M. Berg, John L. Tymoczko, Lubert Stryer, Biochemistry,<br />

Fifth Edition, W. H. Freeman and Company New York, 2002<br />

TopHat Serra Jean, Courses on Mathematical Morphology,<br />

http://cmm.ensmp.fr/~serra/cours/index.htm (Sep. 2005)<br />

Voet&Voet92 Daniel Voet, Judith G. Voet, Biochemie, VCH Verlagsgesellschaft<br />

mbH, Weinheim, 1992<br />

Yergey83 James A. Yergey, Int. J. Mass Spectrometry and Ion Physics, 1983, 52,<br />

337-349<br />

103

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!