English China

Per Raute leichter zu Millionen Daten

Wissenschaftler entwickeln Hashtags für Massenspektren

Seite: 2/2

Anbieter zum Thema

IUPAC, InChI und SPLASH – warum die Entwicklung von Codes unerlässlich ist

In der Geschichte der Wissenschaft standen Chemiker immer wieder vor Kommunikationsproblemen, denn gleiche Substanzen waren – je nach Entdeckungs- oder Erforschungsort – unter verschiedenen Namen bekannt. Koffein beispielsweise erhielt seinen Namen zunächst aus der Kaffeepflanze, Coffea arabica, aus der die Substanz zuerst isoliert wurde. Darüber hinaus ist Koffein unter einigen weiteren Namen wie 1,3,7-Trimethylxanthin, Methyltheobromin oder Thein bekannt.

Bereits im frühen 20. Jahrhundert sorgte die Internationale Union für reine und angewandte Chemie (International Union of Pure and Applied Chemistry, IUPAC) für einheitliche Regeln für die Erstellung von chemischen Nomenklaturen, Symbolen und Terminologien, die bis heute weltweit angewendet werden. Demnach ist die offizielle international gültige chemische Bezeichnung von Koffein: 1,3,7-Trimethyl-3,7-dihydro-1H-purin-2,6-dion. Besonders bei der Benennung noch unbekannter Substanzen ist diese einheitliche Namensgebung hilfreich, obgleich sich immer auch zusätzliche Trivialnamen für den täglichen Umgang im Forschungsalltag etablieren.

Der IUPAC-Code ist allgemeingültig und wird von Chemikern weltweit verstanden; er hat aber den Nachteil, dass er besonders bei komplexen Verbindungen zu lang ist, um sich ein Bild über die räumliche Ausrichtung der Atome im Molekül zu machen. Chemiker bevorzugen daher immer die grafische Darstellung von Molekülen, die Strukturformel, da diese wichtige Informationen zum Aufbau der Verbindung enthält. Diese grafische Darstellung wird vom Menschen gut verstanden, von Computern hingegen nur bedingt.

Um Strukturformeln mit dem Computer sichtbar und im Internet suchbar zu machen, wurden von 2005 bis 2008 auf Initiative der IUPAC zwei verschiedene Codes entwickelt, die Strukturinformationen von chemischen Verbindungen in maschinenlesbare Zeichenketten umwandeln. Diese Codes, der InChI-String und der InChI-Key (von International Chemical Identifyer) funktionieren wie Hashtags, mit denen die jeweilige Substanz im Internet wieder auffindbar ist. Beide Codes können für alle existierenden Verbindungen mit einer frei verfügbaren Software generiert werden. Öffentliche Datenbanken und Chemieportale, wie Pubchem oder Chemspider, aber auch Wikipedia haben ihre Substanzinformationen um den InChI/InChI-Key erweitert. Gibt man den Code für Koffein oder Teile davon in die Suchmaschinen ein, so findet man alle relevanten Seiten zu Koffein, inklusive Strukturformel und vielen weiteren für Wissenschaftler interessanten Informationen.

Da jede Substanz nicht nur eine eindeutige Strukturformel, sondern auch ihr ganz spezifisches Massenspektrum aufweist, ist die Entwicklung des SPLASH-Codes die logische Fortführung des InChIs, die sich in der Konsequenz von wachsenden Massendatenmengen in verschiedenen Formaten ergibt.

* S. Pieplow: Leibniz-Institut für Pflanzenbiochemie (IPB), 06120 Halle (Saale)

(ID:44384016)