Big Data Herausforderungen und Potenziale von Big Data: Von großen und von spärlichen Daten
Wie die Helmholtz-Gemeinschaft das Thema Big Data angeht und welche Ansätze sich konkret beispielsweise für die Einzelzellgenomik ergeben, erläutert Prof. Dr. Dr. Theis vom Helmholtz Zentrum München im LP-Interview. Das Gespräch führte LP-Chefredakteur Marc Platthaus
Anbieter zum Thema

LP: „Big Data” ist in aller Munde und in vielen Wissenschaftsbereichen nimmt der Umgang mit Big Data rasant zu. Wie sieht es da bei der Helmholtz-Gemeinschaft aus?
Prof. Dr. Dr. Fabian Theis: Die Gemeinschaft hat auf Gebieten wie Informationsverarbeitung, Big Data, Data Analytics, Simulation, Modellierung, Bioinformatik, High Performance Computing usw. in den letzten Jahrzehnten ein enormes Erfahrungs- und Kompetenzportfolio aufgebaut. Die Helmholtz-Zentren und Forschungsbereiche sind Betreiber großer Forschungsinfrastrukturen (z.B. Satellitenmissionen, Großanlagen der Kern- und Teilchenphysik oder großer Bevölkerungs- und Patientenkohorten), Anwender von Supercomputing der neuesten Generation sowie Kompetenzträger für komplexe Simulationen (z.B. umfangreicher Erd- und Klimamodelle).
LP: Dies führt zu großen Herausforderungen, bietet aber auch neue Potenziale.
Prof. Theis: Exakt. Die große Herausforderung ist wie in vielen anderen Bereichen, mit diesen immer größer werdenden Datenbergen sinnvoll umzugehen, diese leicht durchsuch- und auswertbar zu halten und am besten über verschiedene Skalen (beispielsweise von molekularen Parametern in einer Zelle, über Gewebeeigenschaften zu ganzen Organismen und Ökosystemen) zu integrieren. Das Potenzial, speziell für die Helmholtz-Gemeinschaft liegt darin, dass wir schon seit langem mit dem Erheben, dem Handling, dem Analysieren, dem Auswerten und der Nutzbarmachung großer Datenmengen vertraut sind. Da sich aber die Ansätze zwischen den unterschiedlichen Forschungsgebieten in Helmholtz zum Teil erheblich unterscheiden, verfolgen wir seit kurzem die Idee, allgemeine Auswertungsmethoden über die Gebiete hinweg zu etablieren und so von unterschiedlichen Expertisen zu profitieren. Helmholtz also hat und analysiert Big Data, was zu dem Konzept einer gemeinsamen Data-Science-Strategie führt. Mich speziell interessiert hier methodisch vor allem das so genannte Machine Learning, also die Generierung von Wissen aus „Lern“-Daten durch die systematische Suche nach statistischen Mustern. Ich denke langfristig wird eine Kernherausforderung sein, die Analysefähigkeiten in der Helmholtz-Gemeinschaft konsequent auszubauen und zu vernetzen, um auch in Zukunft entscheidenden Nutzen aus unseren einzigartigen Daten zu erhalten.
LP: Für eine optimale Bündelung der Kompetenzen wurde der Helmholtz-Inkubator Information & Data Science gegründet. Worum handelt es sich hierbei genau?
Prof. Theis: Data Science ist ein hoch relevantes Zukunftsthema für alle 18 Zentren der Helmholtz-Gemeinschaft; um die dezentral herausragenden Kompetenzen zusammenzuführen, wurde der Aufbau dieses „Helmholtz-Inkubators“ beschlossen, in dem ich auch Mitglied bin. Sein Ziel ist neben der Vernetzung der verschiedenen Methodenkompetenzen, auch ein Forum für neue Ideen und potenziell disruptive Pilotprojekte zu schaffen, die über Forschungsbereiche hinweg gehen sowie neue Impulse zur Weiterentwicklung des Forschungsportfolios der Helmholtz-Gemeinschaft geben. Neben konkreten Projekten wie Sparse2Big sind auch Diskussionen spannend. Wir halten die Aussage „Every Scientist is a Data Scientist“ für absolut zutreffend – jeder Forscher und jeder Wissenschaftsbereich ist heute mit datenbezogenen Herausforderungen konfrontiert. Ausbildung und Nachwuchs sind daher von zentraler Bedeutung. Insgesamt also wollen wir Methoden und Technologien, die in einem Fachbereich entwickelt werden, schnell für alle nutzbar machen, denn oft sind es gerade diese interdisziplinären Übertragungen, die Sprünge in der Forschung ermöglichen.
LP: Ende Juni wurden einige Projekte des Inkubators ausgewählt, die nun in einer ersten Finanzierungsrunde eine Förderung von insgesamt 17 Millionen Euro für die nächsten drei Jahre erhalten. Hierzu gehört auch das Pilotprojekt „Sparse2Big“. Was kann man sich darunter vorstellen?
Prof. Theis: In Sparse2Big, das ich zusammen mit Joachim Schultze vom DZNE in Bonn koordiniere, geht es um einen augenscheinlich einfachen frühen Schritt in vielen Datenanalysen, nämlich den Umgang mit fehlenden oder verrauschten Datenpunkten in großen Daten, was für jede spätere Analyse entscheidend sein kann – wir alle kennen den Spruch „Garbage in, Garbage out“. Big Data umfassen häufig sehr viele Datenpunkte, so genannte Samples, von denen jeweils viele Parameter gemessen werden. In unserem konkreten Anwendungsbeispiel sind die Samples einzelne menschliche Zellen, und die Parameter die Expression von bestimmten mRNAs. Solche Daten sind oft spärlich („sparse“), d.h. viele Parameter sind nicht gemessen oder auch tatsächlich einfach nicht da, beispielsweise weil die Zelle diese mRNA nicht exprimiert. In verschiedenen Bereichen wurden Lösungsansätze entwickelt, solche Daten zu entrauschen und zu ergänzen (imputieren), von statistischen Ansätzen bis hin zur Modellierung von Beobachtungsprozessen. Nur wenn der „fehlerhaften“ Natur dieser Daten Rechnung getragen wird, können zuverlässige Schlüsse gezogen werden. Daher ist die Entwicklung, Evaluation und das Bereitstellen von Datenimputations und -integrationsmethoden von entscheidender Bedeutung für viele Forschungsbereiche, mit potenziellen Anwendungen von Patientendaten zu Remote Sensing in der Geographie bis hin zu Rauschen in der Bildgebung. Ziel von Sparse2Big ist es, Forscher aus acht verschiedenen Helmholtz-Zentren zusammenzubringen, um solche Methoden und Techniken für große Daten zu entwickeln und zu evaluieren. Um eine detaillierte Analyse zu ermöglichen und um die Relevanz einer solchen methodischen Forschung zu zeigen, konzentrieren wir uns zunächst auf einen Use Case, nämlich Einzelzellgenomik, der inhaltlich für alle Gesundheitszentren strategisch relevant ist. Wir werden darauf aufbauend weitere kleine, perspektivische Projekte verfolgen beispielsweise in Remote Sensing.
LP: Welche Fragestellungen am Beispiel der Einzelzellgenomik sollen durch Sparse2Big geklärt werden?
Prof. Theis: Die Techniken der Einzelzellgenomik tragen derzeit zu einer Revolution der biologischen und medizinischen Forschung bei, indem sie die Vorteile der modernen Bulk-Sequenzierung mit Analysen von einzelnen Zellen kombinieren, was vor kurzem Giladi und Amit passenderweise als „genetisches Mikroskop“ bezeichnet haben. Die technologischen Fortschritte sind enorm und ermöglichen die Profilierung von Genomen, Transkriptomen und Epigenomen in einer zuvor nicht möglichen Auflösung und einer beträchtlichen Anzahl von Datenpunkten. Wir haben in LABORPRAXIS Ausgabe 10/2016 eine Übersicht über Einzelzellanalysen in der medizinischen Forschung veröffentlicht. Durch die technischen Fortschritte im Einzelzellbereich ist die Entwicklung von neuen Analysemethoden/Algorithmen unerlässlich. Innerhalb des Sparse2Big Projektes wollen wir in einem interdisziplinären Team neue Algorithmen für spärliche Datensätze und Datenfusion und -integration entwickeln und ein „Ökosystem“ für die Analyse von spärlichen scRNAseq-Datensätzen generieren. Für die Anwendung der Einzelzellgenomik in der Klinik sind höhere Standards und Robustheit gefragt. Wir kooperieren z.B. mit Softwarefirmen, um Plattformen zu initiieren, die standardisierte Datenintegration, -verarbeitung, -analyse und -aufbewahrung ermöglichen. Die Erkenntnisse, die wir anhand des Use-case „Einzelzellgenomik“ erhalten, wollen wir dann wie gesagt auf andere Forschungsbereiche der Helmholtz-Gemeinschaft übertragen.
Vielen Dank für das Gespräch Herr Professor Theis.
(ID:44899272)