Informatische Methoden zur Protein-Identifikation

BIO- & GENTECHNOLOGIE Informatische Methoden zur Protein-Identifikation

10.10.2005Autor / Redakteur: Sebastian Böcker*, Jens Stoye** / Gerd Kielburger

Im Folgenden werden zwei aktuelle Entwicklungen aus dem Bereich der computergestützten Protein- und Metaboliten- Identifikation vorgestellt.

Anbieter zum Thema

FRITSCH GmbH

Shimadzu Deutschland GmbH

SIM Scientific Instruments Manufacturer GmbH

Die Identifikation unbekannter Proteine und Metaboliten mit Methoden der Massenspektrometrie gehört zu den meistverbreiteten Analysemethoden der Biotechnologie. Die automatisierte Analyse der hierbei entstehenden Messdaten ist eine große Herausforderung an die Bioinformatik. Im Folgenden werden zwei aktuelle Entwicklungen aus dem Bereich der computergestützten Protein- und Metaboliten-Identifikation vorgestellt.

Nach Abschluss des Humangenom-Projektes können Forscher heute auf eine äußerst genaue Referenz-Sequenz des menschlichen Genoms zurückgreifen. Allerdings ist die genomische Information für alle Zellen des menschlichen Körpers identisch, und erst die Analyse des Transkriptoms (der Gesamtheit der mRNAs) erlaubt Aussagen darüber, welche Gene in einer Zelle oder einem Organ tatsächlich aktiv sind. Letztlich erlaubt aber erst die Analyse des Proteoms einer Zelle, also der Gesamtheit der Proteine, verlässliche Aussagen über Häufigkeit, Struktur, Modifikationen und Komplexe von Proteinen. Heute weiß man, dass insbesondere modifizierte Proteine im menschlichen Stoffwechsel eher die Regel als die Ausnahme darstellen.

Zur Identifikation und Analyse von Proteinen hat sich die Massenspektrometrie als meist verwendete Analysetechnik durchsetzen können. Massenspektrometrie zeichnet sich durch hohe Messgenauigkeit, Reproduzierbarkeit und Sensitivität aus. Die Kopplung unterschiedlicher biochemischer Verfahren zur Probenaufarbeitung mit diesen massenspektrometrischen Methoden erlaubt es, die untersuchten Proteine zu identifizieren und zu quantifizieren. Neue Techniken erlauben dabei eine immer genauere Analyse insbesondere der Masse der Probenmoleküle.

Moderne Massenspektrometer können häufig mehrere Messungen in einer Sekunde durchführen, und es ist offensichtlich, dass die Auswertung der entstehenden Datenmengen durch manuelle Inspektion in der Regel nicht möglich ist: In vielen Fällen müssen täglich Datenmengen im Gigabyte-Bereich ausgewertet werden. Auch ist die manuelle Interpretation häufig mit einer subjektiven Komponente behaftet, die insbesondere bei der Auswertung großer Datensätze durch mehrere Personen von Nachteil sein kann. Dies motiviert den Einsatz von automatisierter, Rechner-gestützter Auswertung der Messdaten. Eine solche Auswertung im Rechner soll dabei verschiedene Kriterien erfüllen, beispielsweise eine effiziente Auswertung auf handelsüblichen Rechnern ermöglichen, sowie gleichermaßen sensitiv und robust sein: Massenspektrometrie-Daten sind - wie alle Messdaten - durch verschiedene Fehlerquellen gestört.

Bei der Analyse sollen Daten, die eine eindeutige Auswertung erlauben, vom Rechner als solche erkannt und interpretiert werden. Andererseits macht es der Hochdurchsatz des Verfahrens unabdingbar, dass zweifelhafte Interpretationen der Messdaten selbständig erkannt und von der weiteren Analyse ausgeschlossen werden. Die massenspektrometrischen Messdaten können dabei, abhängig von den zum Einsatz kommenden Methoden, völlig unterschiedliche Strukturen aufweisen, die bei der anschließenden Auswertung der Daten berücksichtigt werden müssen.

Fingerabdruck eines Proteins ermitteln

Eine der heute am weitesten verbreiteten Methoden zur Proteinidentifikation sind Protein Mass Fingerprints (PMFs). Dabei wird das zu identifizierende Protein durch Gelelektrophorese separiert, mit Trypsin verdaut und das resultierende Fragmentmuster in einer Proteindatenbank gesucht. Unter Zuhilfenahme eines Bewertungsschemas wird für jedes Protein in der Datenbank ein „Score“ berechnet, der repräsentiert, wie gut die gemessenen Massenspektrometrie-Daten mit den für das Protein simulierten Daten in Abgleich gebracht werden können (s. Kasten). Zur Proteinidentifikation werden dann alle Proteine in der Datenbank bezüglich ihres Scores sortiert und das Protein mit dem höchsten Score als die korrekte Identifikation gemeldet.

Allerdings kann auch ein verrauschtes oder anderweitig fehlerhaftes Spektrum auf diese Weise interpretiert werden, und man muss in einem zweiten Analyseschritt sicherstellen, dass der erzielte Score und damit die Identifikation des Proteins eben nicht zufällig zu Stande gekommen ist. Beispielsweise kann ein niedriger Score durch ein verrauschtes Spektrum bedingt sein, oder das zu identifizierende Protein befindet sich gar nicht in der Datenbank. Das Dilemma der Analyse ist es, zwischen diesen beiden Fällen unterscheiden zu müssen, obwohl nur Scores für die Proteine in der Datenbank berechnet werden.

Eine elegante Lösung dieses Dilemmas ist die Annahme, dass die Datenbank-Proteine zufällig aus einem viel größeren Vorrat an Proteinen gezogen wurden; dabei sollen die relativen Anteile der Aminosäuren in diesem größeren Vorrat identisch mit denen in der Datenbank sein. Des Weiteren ist zu beachten, dass längere Proteine in der Regel zu mehr Fragmenten führen als kürzere und dass längere Proteine somit in der Regel einen höheren Score erzielen. Somit müssen die folgenden Analyseschritte für jede Proteinlänge in der Datenbank separat durchgeführt werden.

Sequenzen vergleichen - Signifikant oder zufällig?

Für vorgegebene Proteinlänge und eine gegebene Verteilung von Aminosäuren lässt sich die Verteilung von Scores abschätzen, indem einige zehntausend Proteinsequenzen zufällig erzeugt werden und für jede solche Sequenz das gemessene Massenspektrum mit den simulierten Daten in Abgleich gebracht und ein Score berechnet wird.

Dies erlaubt es, den besten Score eines Datenbankproteins zu evaluieren. Die Signifikanz (p-value) des Scores gibt an, wie wahrscheinlich es ist, diesen Score durch eine zufällige Proteinsequenz ebenfalls erreichen zu können. Ein niedriger Wert korrespondiert dabei wahrscheinlich zu einer korrekten Interpretation mit verrauschten Messdaten, während ein höherer Wert eine geringe Signifikanz des Scores für eine Proteinidentifikation anzeigt. Solche Signifikanzabschätzungen sind robuste Verfahren, die in vielen Gebieten der Messdaten-Analyse erfolgreich eingesetzt werden.

Hohe Anforderungen an die Computer-Hardware

Nachteil des oben beschriebenen Ansatzes sind die Rechenanforderungen. Derartige Simulationen für Zehntausende von Proteinsequenzen für jede in der Datenbank vorkommende Proteinlänge durchzuführen, kann auf einem handelsüblichen Rechner einige Minuten Rechenzeit erfordern und ist deshalb zur Analyse von Hochdurchsatz-Daten wenig geeignet. Zur Beschleunigung wird deshalb die Verteilung der Score nicht durch Simulationen, sondern analytisch durch Berechnung ihrer Parameter (der „Momente“) bestimmt. Das Problem ist hier natürlich, eine Formel zur Berechnung dieser Momente zu finden; für übliche Anwendungsszenarien sind mittlerweile aber sehr gute Näherungen möglich.

Durch die analytische Methode wird die Rechenzeit auf einige Sekunden reduziert, und die Analyse wird deterministisch. Zieht man zufällige Proteinsequenzen zur Bestimmung der Signifikanz eines Scores, so ändert sich diese bei jedem Lauf des Computerprogramms; die analytische Methode zeigt keine solchen Abweichungen. Durch die Bestimmung der Signifikanz kann die Identifikation von Proteinen durch Protein Mass Fingerprints, und voraussichtlich in Zukunft auch die Analyse von Tandem-Massenspektren zur Protein-Sequenzierung, robuster und aussagekräftiger gestaltet werden. Hier zeigt sich, wie ein seit Jahren in der Biotechnologie etabliertes Verfahren durch bioinformatische Methoden robuster und damit auch effizienter gestaltet werden kann.

Massenzerlegungen und das Metabolom

Die Identifikation von Proteinen hat sich zu einer Standardtechnik der Biotechnologie entwickelt, und neue Verfahren wie die Proteinidentifikation im Schrotschuss-Verfahren sollen insbesondere die aufwändige Probenaufbereitung vereinfachen. Aber neben den Proteinen rückt zunehmend auch die Analyse von Metaboliten (beispielsweise Mehrfachzuckern) in den Mittelpunkt: Der Stoffwechsel einer Zelle wird bestimmt durch das Zusammenspiel von Proteinen und Metaboliten. Auch zur Analyse des Metaboloms ist Massenspektrometrie eine der am weitest verbreiteten Analysemethoden; allerdings können Strategien der massenspektrometrischen Untersuchung von Proteinen nicht für Metaboliten verwendet werden.

Ein viel versprechender Ansatz ist es, die Summenformel unbekannter Metaboliten direkt aus ihrer Masse zu berechnen. Mit Hilfe moderner massenspektrometrischer Messverfahren wie der Fourier-Transform-Massenspektrometrie kann die Masse eines Moleküls mit sehr hoher Genauigkeit bestimmt werden; häufig ist der Messfehler geringer als die Ruhemasse eines einzelnen Elektrons. Auf Grund des Massendefektes weichen die (monoisotopischen) Massen der Elemente von der Anzahl ihrer Nukleonen (Protonen und Neutronen) ab. So ist die Masse eines Heliumkerns um fast ein Prozent geringer als die Masse seiner Bestandteile, zwei Protonen und zwei Neutronen. Dieser Umstand erlaubt es in vielen Fällen, aus der Masse eines Moleküls seine atomare Summenformel eindeutig zu bestimmen.

Falls eine eindeutige Zuordnung allein durch die Masse nicht möglich ist, so kann die Isotopenverteilung des Moleküls Rückschlüsse auf seine atomare Zusammensetzung ermöglichen. Offensichtlich ist die Zahl der Summenformeln, die als Erklärung einer Molekülmasse potenziell in Betracht kommen, immens. Hier helfen Algorithmen der Bioinformatik, Massenzerlegungen am Computer in vertretbarer Zeit durchführen zu können.

Mataboliten direkt aus Masse und Isotopenmuster bestimmen

Dieser Ansatz wird es vielleicht in naher Zukunft erlauben, die in einer Probe vorkommenden Metaboliten direkt und nur auf Grund ihrer Masse und ihres Isotopenmusters zu bestimmen, und könnte so die Untersuchung von Stoffwechselvorgängen in einer Zelle erheblich vereinfachen.

DER PEAK-COUNTING-SCORE

Vergleich von Massenspektren von ProteinenEine grundlegende Aufgabenstellung bei der Proteinidentifikation ist es, zwei Massenspektren miteinander zu vergleichen: beispielsweise ein gemessenes Spektrum mit einem simulierten, aus einer Proteinsequenz generierten Spektrum. Dazu wird ein „Score“ berechnet, der die Ähnlichkeit der beiden Spektren messen soll – ein hoher Score für ähnliche, ein geringer Score für nicht ähnliche Spektren. Ein einfaches Beispiel für einen solchen Score ist der „Peak Counting Score“, bei dem diejenigen Peaks gezählt werden, die übereinstimmend in beiden Spektren vorkommen. Das Problem hierbei ist zu spezifizieren, was ein hoher beziehungsweise ein geringer Score ist. So erzeugen lange Proteine in der Regel mehr Peaks und führen rein zufällig zu größeren Peak Counting Scores – auch bei gemessenenSpektren, die das fragliche Protein gar nicht enthalten. Andere, komplexere Scores können die Massenabweichungen und Intensität der gemessenen Peaks berücksichtigen oder sogar ein Maß für die Wahrscheinlichkeit darstellen, dass zwei Massenspektren übereinstimmen.

DIE AUTOREN

Prof. Dr. Jens Stoye:Studium und Promotion im Fach Naturwissenschaftliche Informatik, Universität Bielefeld; Postdoc-Aufenthalte an der University of California in Davis und am Deutschen Krebsforschungszentrum in Heidelberg; Nachwuchsgruppenleiter für Algorithmische Bioinformatik am MPI für molekulare Genetik in Berlin; seit März 2002 Leiter der Arbeitsgruppe „Genominformatik“, die im Rahmen der Bioinformatik-Initiative der DFG an der Universität Bielefeld eingerichtet wurde.

Dr. Sebastian Böcker:Mathematikstudium Universität Hamburg; Promotion an der Universität Bielefeld; zwei Jahre bioinformatische Forschung bei Sequenom in Hamburg, ein weiteres Jahr in der Niederlassung in San Diego; seit März 2003 Leiter Nachwuchsgruppe „Informatische Methoden der Massenspektrometrie“; Förderung durch die DFG (Aktionsplan Informatik, Emmy Noether- Programm)

(ID:157702)