Big Data – Keine Angst vor vielen Daten

ISO-Arbeitsgruppe entwickelt Standards Big Data – Keine Angst vor vielen Daten

22.10.2015Redakteur: Dr. Ilka Ottleben

Im LP-Interview beschreibt der Big-Data-Experte Martin Golebiewski, warum vor allem die Entwicklung von Big-Data-Normen so wichtig ist. Das Gespräch führte LP-Chefredakteur Marc Platthaus

Anbieter zum Thema

Hirschmann Laborgeräte GmbH & Co. KG

Van der Heijden Labortechnik GmbH

handshake

„Das Hauptproblem ist oft die fehlende Standardisierung der so genannten Metadaten.“ Martin Golebiewski, Vorsitzender der ISO-Arbeitsgruppe „Datenverarbeitung und Integration“ im Komitee für Normungen in der Biotechnologie
(Bild: HITS)

LP: Herr Golebiewski, in der modernen Biotechnologie werden täglich weltweit ungeheure Datenmengen produziert, für welche es bisher kaum allgemeinverbindliche Normen und Spezifikationen gibt. Wie geht man bisher mit diesen Daten und deren Auswertungen um?

Martin Golebiewski: Wir sind in verschiedenen wissenschaftlichen Kooperationsprojekten der Systembiologie und -medizin für das Datenmanagement verantwortlich, z.B. im deutschen Netzwerk „Die Virtuelle Leber“ oder in einer europäischen Initiative für angewandte Systembiologie. Dabei stellen wir immer wieder fest, dass die erhobenen Daten zwar strukturiert gesammelt und gespeichert werden, z.B. als Excel-Tabelle, Textdokument oder Grafik, es aber häufig keine Standards für Format und Beschreibung der Daten gibt, die alle Partner anwenden. Beim Austausch der Daten werden deren Struktur und Bedeutung häufig mündlich erklärt. Für einzelne Datenformate wie Sequenz-, Proteom- oder Metabolomdaten, aber auch für die Modellierung biologischer Systeme am Computer gibt es schon weit verbreitete so genannte „de facto“-Standards. Auf diese haben sich Experten geeinigt, ohne eine echte Norm zu veröffentlichen. Allerdings gibt es keine einheitliche Arbeitsweise dafür, die Standards aufeinander abzustimmen. Damit ließen sich dann zusammenhängende oder aufeinander aufbauende Datensätze beschreiben. Das Hauptproblem ist oft die fehlende Standardisierung der so genannten Metadaten. Das sind Daten, welche die Daten beschreiben und in einen sinnvollen Kontext bringen, z.B. die Methoden, der biologische Kontext oder die Herkunft der Proben. Das führt besonders dann zu Problemen, wenn Daten aus unterschiedlichen Bereichen verknüpft werden, also etwa Proteomdaten mit Metabolomdaten oder Computermodelle mit experimentellen Daten.

LP: Was sind Ihre Aufgaben und Zielsetzungen als Vorsitzender des ISO-Gremiums für Datenverarbeitung und Integration in der Biotechnologie?

Golebiewski: Wir sind eine Arbeitsgruppe des Normungsgremiums für Biotechnologie der Internationalen Standardisierungsorganisation ISO. Unsere Arbeitsgruppe möchte Normen für die Rückverfolgung, Suchbarkeit, Integration und Weiterverarbeitung von Daten und Computermodellen in den Lebenswissenschaften etablieren. Dabei arbeiten wir mit anderen Gremien und wissenschaftlichen Standardisierungsinitiativen zusammen. Der Fokus liegt auf der Definition von methodenübergreifenden Normen, die spezifische Standards aus den Fachbereichen in Beziehung bringen. Da es für die Daten- und Modellformate in vielen Bereichen bereits etablierte „de facto“-Standards gibt, wollen wir zunächst eine Norm entwickeln, die auf diese verweist und die Schnittstellen zwischen ihnen definiert. Das umfasst auch Standards für die Metadaten, also welche zusätzlichen Daten in welcher Form mit angegeben werden sollten. Wir werden dazu auch auf bestehende „Minimal reporting guidelines“, Terminologien und Ontologien zurückgreifen. Insbesondere für die Industrie sind offizielle Normen unverzichtbar, da die langfristige und nachhaltige Verfügbarkeit der „de facto“-Standards durch die Wissenschaft oft nicht garantiert werden kann. Dazu sind die Mechanismen zur Forschungsförderung leider viel zu kurzfristig angelegt. Hier können dauerhaft verfügbare Normen helfen, die einen Rahmen für „de facto“-Standards schaffen. Außerdem haben wir uns auch vorgenommen, Normen für das Qualitätsmanagement der Daten und Modelle zu definieren. Dabei liegt der Schwerpunkt auf Normen, die eine eindeutige Identifizierung und Rückverfolgung der Daten über alle Verarbeitungsschritte hinweg ermöglichen.

LP: Welche Partner sind an diesem Projekt beteiligt, und wie sollen sie eingebunden werden?

Golebiewski: In unserer ISO-Arbeitsgruppe arbeiten etwa 50 Experten aus Industrie und Forschung mit. Diese kommen aus vielen Ländern weltweit, unter anderem Europa, USA und Asien. Aus Deutschland sind unter anderem meine Kooperationspartner Susanne Hollmann von der Universität Potsdam und Babette Regierer von dem Berliner Unternehmen Lifeglimmer in Berlin dabei. Wir arbeiten zusammen im Projekt Normsys, das vom Bundeswirtschaftsministerium gefördert wird und eine Brücke zwischen Standardisierungsinitiativen und der Industrie schlagen möchte. Dadurch sollen Normen vorbereitet werden, die auf „de facto“-Standards für Computermodelle in der Systembiologie aufbauen. Dazu arbeiten wir eng mit Organisationen wie DIN und ISO zusammen und sind in wissenschaftlichen Standardisierungsinitiativen vertreten. Ich bin u.a. ein Koordinator des internationalen Combine-Netzwerks, das Standards für Computermodelle und Simulationen in der Biologie erarbeitet.

Ergänzendes zum Thema

Zur Person – Martin Golebiewski

Martin Golebiewski ist Biochemiker und widmet sich seit gut einem Jahrzehnt dem Datenmanagement und der Datenintegration, insbesondere im interdisziplinären Feld der Systembiologie. Am Heidelberger Institut für Theoretische Studien (HITS), einem gemeinnützigen privaten Forschungsinstitut, ist er am Aufbau von biologischen Datenbanken beteiligt und erarbeitet Konzepte für das Datenmanagement und die Standardisierung biologischer Daten und Computermodelle. Er ist Mitglied in verschiedenen Gruppen und Gremien, die sich mit Fragen der Standardisierung in den Biowissenschaften auseinandersetzen. So leitet er u.a. einen erst vor kurzem gegründeten Arbeitskreis für Datenprozessierung und Integration des ISO-Komitees für Normungen in der Biotechnologie (ISO/TC 276 Biotechnology).

LP: Gibt es Anwendungsbereiche, welche vorrangig behandelt werden? Bis wann sollen die neuen Normen vorliegen?

Golebiewski: Die Notwendigkeit der Vereinheitlichung von Formaten wird gerade bei interdisziplinären Fachgebieten wie der System- oder der Synthetischen Biologie deutlich, da hier unterschiedliche Datenformate miteinander verknüpft werden müssen. Für Computermodelle und deren Austausch zwischen Tools und Datenbanken wurden bereits aufeinander abgestimmte „de facto“-Standards definiert und implementiert. Das zeigt das Beispiel der COMBINE-Formate SBML, BioPax, CellML, SBGN, SED-ML und SBOL, die koordiniert weiterentwickelt werden. Aber auch im experimentellen Bereich haben sich bereits Standards etabliert, z.B. für Sequenz- oder Proteomdaten. Diese Bereiche eignen sich damit sehr gut für eine erste Norm zur Integration biologischer Daten und Modelle. Sehr spannend ist auch, dass das MPEG-Konsortium gerade Kontakt mit uns aufgenommen hat, um mögliche Standards für die Genomkompression zu diskutieren. Dabei handelt es sich um Methoden, um Gensequenzen möglichst platzsparend zu verarbeiten. Die ISO-Arbeitsgruppe ist noch sehr neu, wir müssen die konkreteren Ziele und Arbeitsschritte erst noch weiter ausarbeiten. Daher ist es schwer, den genauen Zeitpunkt vorherzusagen, wann wir die ersten Normen veröffentlichen werden. Ich gehe aber davon aus, dass wir in zwei bis drei Jahren die ersten Ergebnisse haben werden.

Vielen Dank für das Gespräch Herr Golebiewski.

(ID:43602380)