Die Heterogenität von Daten in der medizinischen Forschung ist enorm. Das wird auch bei der Suche nach einem Covid-19-Impfstoff allzu deutlich. Um wissenschaftliche Daten schneller und gezielter auswerten zu können, setzen Forscher daher verstärkt auf Datenanalytik und Knowledge Graphen.
Abb. 1: Visualisierung in Neo4j Bloom von Publikationen/Erwähnungen des Gens ACE2
(Bild: CovidGraph)
Knowledge Graphen sind Wissensdatenbanken, in denen eine große Anzahl heterogener Daten aus unterschiedlichen Quellen verknüpft wird. Das Besondere: Nicht nur einzelne Daten lassen sich speichern und abfragen, sondern auch die Beziehungen zwischen den Daten. Daten werden als Knoten, die Verbindung zwischen den Daten als Linien dargestellt. Dieses intuitiv nachvollziehbare Modell bildet selbst komplexes Wissen anschaulich ab. Zusammenhänge und Muster lassen sich deutlich einfacher und schneller erkennen, neue Datensätze können problemlos als neues Knoten-Kanten-Element hinzugefügt werden.
Ein Gespräch mit den Initiatoren des Covidgraph-Projekts, Dr. Alexander Jarasch (Deutsches Zentrum für Diabetesforschung) und Dr. Martin Preusse (Kaiser & Preusse).
LP: Wie kamen Sie auf die Idee, einen Knowledge Graphen für Covid-19 aufzubauen?
Martin Preusse: Wir sind Bioinformatiker und Data Scientist. Als die Pandemie Anfang März sich mehr und mehr ausbreitete, war uns beiden klar, dass Covid-19 auch für die Datenwissenschaft eine enorme Herausforderung wird. Was in den letzten Monaten an Publikationen veröffentlicht wurde, ist für einen Wissenschaftler allein unmöglich zu erfassen. Allein die Covid-19-Open-Research-Datenbank (CORD-19) zählt 44.000 Artikel. Die Johns-Hopkins-Universität aktualisiert stündlich ihre Falldaten. Hinzu kommen unzählige Patentschriften und Studien. Gefragt war daher ein Datenanalytik-Tool, um die Fülle an Informationen nutzbar zu machen. Daher die Idee, einen Knowledge Graphen aufzubauen.
LP: Der Covidgraph soll Wissenschaftlern helfen, Covid-19- relevante Informationen schnell und einfach zu finden. Wie?
Alexander Jarasch: Nun, ein gutes Beispiel ist der Zusammenhang zwischen Covid-19-und Diabetes. In den letzten Monaten haben sich die Hinweise gehäuft, dass bei Menschen mit Vorerkrankungen der Krankheitsverlauf deutlich schwerer ist. Wir wissen aber nicht genau, warum das so ist. Indem wir Daten aus verschiedenen Quellen und Disziplinen, u.a. der Diabetesforschung, in einen Kontext bringen, sind wir in der Lage, diesen Fragen gezielt nachzugehen. Im Graphen lassen sich komplexe Informationen sehr gut visualisieren. Anomalien, Ausreißer oder Muster innerhalb der Daten sind einfach zu erkennen. Das hilft Wissenschaftlern, Zusammenhänge zu untersuchen und herauszufinden, warum bestimmte Patientengruppen einem besonderen Risiko ausgesetzt sind.
LP: Welche Anforderungen stellen sich an zu speichernde Forschungsdaten, z.B. genomische oder molekularbiologische Daten?
Martin Preusse: Besondere Anforderungen gibt es hier eigentlich nicht. Es ist eher so, dass wir dank der hohen Flexibilität von Graphdatenbanken mit einer großen Bandbreite an verschiedenen Daten arbeiten können und uns nicht an das starre Korsett von relationalen Datenbanken halten müssen. Das ist sehr wichtig, da gerade in der biomedizinischen Forschung die Daten hochgradig vernetzt und heterogen sind. Verbesserungen bei den Messmethoden machen es beispielsweise schwierig, Daten aus unterschiedlichen Studien miteinander zu vergleichen. Bei der Modellierung des Graphen kann dieser Umstand berücksichtigt werden. Das gilt übrigens auch für das Mapping zwischen verschiedenen Gen-IDs aus verschiedenen Genomdatenbanken, einem Kernproblem in der Bioinformatik.
LP: Was für Daten können über die genannten Beispiele hinaus in einer Graphdatenbank gespeichert werden? Wie wird die Vergleichbarkeit der Daten gewährleistet?
Alexander Jarasch: Grundsätzlich kann jede Art von Daten in einer Graphdatenbank gespeichert werden, sowohl Metadaten als auch Rohdaten. Ein Großteil der Informationen liegt als Text vor. Aber auch Bilder lassen sich im Graph verlinken oder die Beobachtungs- und Messdaten von Bildern werden im Graphen gespeichert und verknüpft. Natürlich müssen bei der Modellierung der Daten die unterschiedlichen Informationen ein Stück weit normalisiert werden, um sie vergleichbar zu machen. Das heißt aber nicht, dass die Daten an Komplexität einbüßen. Wissen ist komplex und muss komplex sein, wenn es einen Mehrwert für die Forschung haben soll. Graphtechnologie liefert uns hier das Tool, um alles was es an Wissen gibt, auch abbilden und nutzen können.
LP: Wie sieht es mit dem Punkt „Datensicherheit“ aus?
Alexander Jarasch: Im Covidgraph arbeiten wir nur mit öffentlichen Datenquellen, wie der weltweit größten Datenbank für Gen-Ontologie oder dem UN-Report mit offiziellen Zahlen zur Weltbevölkerung. Diese Daten sind für jeden zugänglich – so wie unser Graph übrigens auch. Theoretisch ist es jedoch kein Problem, Datensicherheit und Datenschutz im Graphen selbst zu integrieren. Mit Neo4j zum Beispiel lässt sich ein feingranulares Berechtigungssystem erstellen, so dass nur autorisierte Anwender auf sensible Daten zugreifen können.
LP: Wie geht es weiter mit dem Covidgraph Projekt?
Martin Preusse: Wir wollen mit Wissenschaftler und Forschern an Use Cases arbeiten. Das Sammeln und Verknüpfen von Daten ist wichtig, deshalb soll der Covidgraph auch weiterwachsen. Mehr Daten heißt aber nicht automatisch Wissen zu generieren. Dazu brauchen wir Mitwirkende aus der medizinischen Forschung sowie der Bio- und Pharmaanalytik, die ihre Fragen und Forschungsansätze miteinbringen und im Knowledge Graphen untersuchen. Die Skalierbarkeit von Graphdatenbanken ist nahezu grenzenlos. Jetzt geht es uns darum, dass dort gespeicherte Wissen für die Praxis zu nutzen.
Vernetzte Daten für die Medikamentenentwicklung
In der Praxis kommen Knowledge Graphen in den unterschiedlichsten Bereichen zum Einsatz – von der Betrugsaufdeckung in Banken über Recommendation Engines im Online Shop bis zur Planung von Logistikrouten. In der Forschung stellen Knowledge Graphen die Datengrundlage, um einrichtungs- und disziplinübergreifend Erkenntnisse zu vernetzen.
Bildergalerie
Das Novartis-Institut für biomedizinische Forschung nutzt die Graphdatenbank Neo4j, um Daten aus jahrzehntelanger Forschungsarbeit sowie Terabytes an neuen phänotypischen Daten zu verknüpfen und im Kontext der weltweiten medizinischen Forschung zu analysieren. Der Knowledge Graph erfasst alle Elemente, um biologische Prozesse nachvollziehbar abzubilden. So kann das Pharmaunternehmen testen, welcher Wirkstoff und welche Targets am engsten mit einer Krankheit verbunden sind und die Entwicklung von Medikamenten vorantreiben.
Auch das Deutsche Zentrum für Diabetesforschung (DZD) hat auf Basis von Neo4j eine zentrale Wissensdatenbank aufgebaut, mit der rund 400 beteiligte Wissenschaftler standortübergreifend neuen Fragen nachgehen können. Warum erkranken manche Menschen an Diabetes, andere nicht? Welche Rolle spielen dabei Gene, Ernährung, Bewegung und Umweltfaktoren? Lässt sich schon in jungen Jahren das Diabetesrisiko bestimmen? Und wie kann man der Erkrankung entsprechend vorbeugen?
Covidgraph: Zentraler Covid-19-Wissenshub
Mit ganz ähnlichen Fragen beschäftigt sich auch das Projekt Covidgraph, das Anfang März auf dem Höhepunkt der Covid-19-Krise ins Leben gerufen wurde. Wissenschaftler, Entwickler und Data Scientists schlossen sich zusammen, um einen Knowledge Graphen aufzubauen und aktuelle wissenschaftliche Informationen zum Coronavirus in einem zentralen Wissenshub zusammenzuführen.
Das gemeinnützige Projekt soll Forschern einen freien und unkomplizierten Zugriff auf Daten ermöglichen – und damit langfristig bei der Suche nach einem Impfstoff unterstützen. Dazu wurden öffentlich zugängliche Covid-19-Datenquellen, Patentschriften sowie Datensätze aus Genom- und molekularbiologischen Datenbanken miteinander verknüpft. Derzeit umfasst der Knowledge Graph mehr als 16 Mio. Knoten und über 65 Mio. Kanten, wobei die Datenbank mit jedem Tag weiterwächst.
In der Verknüpfung der Daten steckt großes Potenzial. So lassen sich beispielsweise mit nur wenigen Abfrageschritten (Queries) alle wissenschaftlichen Publikationen/Patente ermitteln, die sowohl einen mit Covid-19 verwandten Virustypen (z.B. H1N1 oder Mers-COV) als auch ein bestimmtes Gen/Protein erwähnen.
Die Schnittmenge an relevanten Informationen kann weiter untersucht, nach zusätzlichen Kriterien gefiltert oder mit anderen Datensätzen verglichen werden. Graph-Algorithmen helfen bei der Auswertung, eine Visualisierungs-App ermöglicht es auch technisch weniger versierten Anwendern, sicher durch das Meer von Daten zu navigieren. Für die Publikationen können Abstracts und Volltext direkt in der App eingesehen werden.
Neben dem DZD und den Knowledge-Graph-Spezialisten Kaiser & Preusse wird die Initiative u.a. von den Neo4j-Partnern Graphileon, Linkurious, Prodyna und Structr sowie dem Technologie-Partner yworks unterstützt. Wissenschaftler und Forscher sind eingeladen, den Covidgraph in der Praxis zu testen und eigene Use Cases einzubringen.
* D. Möller: Neo4j, 80331 München
(ID:46597859)
Stand vom 15.04.2021
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://support.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.