English China

Wissensdatenbanken Covid-19: Wie Knowledge Graphen die Forschung antreiben

Von Dirk Möller*

Anbieter zum Thema

Die Heterogenität von Daten in der medizinischen Forschung ist enorm. Das wird auch bei der Suche nach einem Covid-19-Impfstoff allzu deutlich. Um wissenschaftliche Daten schneller und gezielter auswerten zu können, setzen Forscher daher verstärkt auf Datenanalytik und Knowledge Graphen.

Abb. 1: Visualisierung in Neo4j Bloom von Publikationen/Erwähnungen des Gens ACE2
Abb. 1: Visualisierung in Neo4j Bloom von Publikationen/Erwähnungen des Gens ACE2
(Bild: CovidGraph)

Knowledge Graphen sind Wissensdatenbanken, in denen eine große Anzahl heterogener Daten aus unterschiedlichen Quellen verknüpft wird. Das Besondere: Nicht nur einzelne Daten lassen sich speichern und abfragen, sondern auch die Beziehungen zwischen den Daten. Daten werden als Knoten, die Verbindung zwischen den Daten als Linien dargestellt. Dieses intuitiv nachvollziehbare Modell bildet selbst komplexes Wissen anschaulich ab. Zusammenhänge und Muster lassen sich deutlich einfacher und schneller erkennen, neue Datensätze können problemlos als neues Knoten-Kanten-Element hinzugefügt werden.

Kurzinterview: „Wir wollen komplexes Wissen fassbar machen“

Ein Gespräch mit den Initiatoren des Covidgraph-Projekts, Dr. Alexander Jarasch (Deutsches Zentrum für Diabetesforschung) und Dr. Martin Preusse (Kaiser & Preusse).

LP: Wie kamen Sie auf die Idee, einen Knowledge Graphen für Covid-19 aufzubauen?

Martin Preusse: Wir sind Bioinformatiker und Data Scientist. Als die Pandemie Anfang März sich mehr und mehr ausbreitete, war uns beiden klar, dass Covid-19 auch für die Datenwissenschaft eine enorme Herausforderung wird. Was in den letzten Monaten an Publikationen veröffentlicht wurde, ist für einen Wissenschaftler allein unmöglich zu erfassen. Allein die Covid-19-Open-Research-Datenbank (CORD-19) zählt 44.000 Artikel. Die Johns-Hopkins-Universität aktualisiert stündlich ihre Falldaten. Hinzu kommen unzählige Patentschriften und Studien. Gefragt war daher ein Datenanalytik-Tool, um die Fülle an Informationen nutzbar zu machen. Daher die Idee, einen Knowledge Graphen aufzubauen.

LP: Der Covidgraph soll Wissenschaftlern helfen, Covid-19- relevante Informationen schnell und einfach zu finden. Wie?

Alexander Jarasch: Nun, ein gutes Beispiel ist der Zusammenhang zwischen Covid-19-und Diabetes. In den letzten Monaten haben sich die Hinweise gehäuft, dass bei Menschen mit Vorerkrankungen der Krankheitsverlauf deutlich schwerer ist. Wir wissen aber nicht genau, warum das so ist. Indem wir Daten aus verschiedenen Quellen und Disziplinen, u.a. der Diabetesforschung, in einen Kontext bringen, sind wir in der Lage, diesen Fragen gezielt nachzugehen. Im Graphen lassen sich komplexe Informationen sehr gut visualisieren. Anomalien, Ausreißer oder Muster innerhalb der Daten sind einfach zu erkennen. Das hilft Wissenschaftlern, Zusammenhänge zu untersuchen und herauszufinden, warum bestimmte Patientengruppen einem besonderen Risiko ausgesetzt sind.

LP: Welche Anforderungen stellen sich an zu speichernde Forschungsdaten, z.B. genomische oder molekularbiologische Daten?

Martin Preusse: Besondere Anforderungen gibt es hier eigentlich nicht. Es ist eher so, dass wir dank der hohen Flexibilität von Graphdatenbanken mit einer großen Bandbreite an verschiedenen Daten arbeiten können und uns nicht an das starre Korsett von relationalen Datenbanken halten müssen. Das ist sehr wichtig, da gerade in der biomedizinischen Forschung die Daten hochgradig vernetzt und heterogen sind. Verbesserungen bei den Messmethoden machen es beispielsweise schwierig, Daten aus unterschiedlichen Studien miteinander zu vergleichen. Bei der Modellierung des Graphen kann dieser Umstand berücksichtigt werden. Das gilt übrigens auch für das Mapping zwischen verschiedenen Gen-IDs aus verschiedenen Genomdatenbanken, einem Kernproblem in der Bioinformatik.

LP: Was für Daten können über die genannten Beispiele hinaus in einer Graphdatenbank gespeichert werden? Wie wird die Vergleichbarkeit der Daten gewährleistet?

Alexander Jarasch: Grundsätzlich kann jede Art von Daten in einer Graphdatenbank gespeichert werden, sowohl Metadaten als auch Rohdaten. Ein Großteil der Informationen liegt als Text vor. Aber auch Bilder lassen sich im Graph verlinken oder die Beobachtungs- und Messdaten von Bildern werden im Graphen gespeichert und verknüpft. Natürlich müssen bei der Modellierung der Daten die unterschiedlichen Informationen ein Stück weit normalisiert werden, um sie vergleichbar zu machen. Das heißt aber nicht, dass die Daten an Komplexität einbüßen. Wissen ist komplex und muss komplex sein, wenn es einen Mehrwert für die Forschung haben soll. Graphtechnologie liefert uns hier das Tool, um alles was es an Wissen gibt, auch abbilden und nutzen können.

LP: Wie sieht es mit dem Punkt „Datensicherheit“ aus?

Alexander Jarasch: Im Covidgraph arbeiten wir nur mit öffentlichen Datenquellen, wie der weltweit größten Datenbank für Gen-Ontologie oder dem UN-Report mit offiziellen Zahlen zur Weltbevölkerung. Diese Daten sind für jeden zugänglich – so wie unser Graph übrigens auch. Theoretisch ist es jedoch kein Problem, Datensicherheit und Datenschutz im Graphen selbst zu integrieren. Mit Neo4j zum Beispiel lässt sich ein feingranulares Berechtigungssystem erstellen, so dass nur autorisierte Anwender auf sensible Daten zugreifen können.

LP: Wie geht es weiter mit dem Covidgraph Projekt?

Martin Preusse: Wir wollen mit Wissenschaftler und Forschern an Use Cases arbeiten. Das Sammeln und Verknüpfen von Daten ist wichtig, deshalb soll der Covidgraph auch weiterwachsen. Mehr Daten heißt aber nicht automatisch Wissen zu generieren. Dazu brauchen wir Mitwirkende aus der medizinischen Forschung sowie der Bio- und Pharmaanalytik, die ihre Fragen und Forschungsansätze miteinbringen und im Knowledge Graphen untersuchen. Die Skalierbarkeit von Graphdatenbanken ist nahezu grenzenlos. Jetzt geht es uns darum, dass dort gespeicherte Wissen für die Praxis zu nutzen.

Vernetzte Daten für die Medikamentenentwicklung

In der Praxis kommen Knowledge Graphen in den unterschiedlichsten Bereichen zum Einsatz – von der Betrugsaufdeckung in Banken über Recommendation Engines im Online Shop bis zur Planung von Logistikrouten. In der Forschung stellen Knowledge Graphen die Datengrundlage, um einrichtungs- und disziplinübergreifend Erkenntnisse zu vernetzen.

Bildergalerie

Das Novartis-Institut für biomedizinische Forschung nutzt die Graphdatenbank Neo4j, um Daten aus jahrzehntelanger Forschungsarbeit sowie Terabytes an neuen phänotypischen Daten zu verknüpfen und im Kontext der weltweiten medizinischen Forschung zu analysieren. Der Knowledge Graph erfasst alle Elemente, um biologische Prozesse nachvollziehbar abzubilden. So kann das Pharmaunternehmen testen, welcher Wirkstoff und welche Targets am engsten mit einer Krankheit verbunden sind und die Entwicklung von Medikamenten vorantreiben.

Auch das Deutsche Zentrum für Diabetesforschung (DZD) hat auf Basis von Neo4j eine zentrale Wissensdatenbank aufgebaut, mit der rund 400 beteiligte Wissenschaftler standortübergreifend neuen Fragen nachgehen können. Warum erkranken manche Menschen an Diabetes, andere nicht? Welche Rolle spielen dabei Gene, Ernährung, Bewegung und Umweltfaktoren? Lässt sich schon in jungen Jahren das Diabetesrisiko bestimmen? Und wie kann man der Erkrankung entsprechend vorbeugen?

Covidgraph: Zentraler Covid-19-Wissenshub

Mit ganz ähnlichen Fragen beschäftigt sich auch das Projekt Covidgraph, das Anfang März auf dem Höhepunkt der Covid-19-Krise ins Leben gerufen wurde. Wissenschaftler, Entwickler und Data Scientists schlossen sich zusammen, um einen Knowledge Graphen aufzubauen und aktuelle wissenschaftliche Informationen zum Coronavirus in einem zentralen Wissenshub zusammenzuführen.

Das gemeinnützige Projekt soll Forschern einen freien und unkomplizierten Zugriff auf Daten ermöglichen – und damit langfristig bei der Suche nach einem Impfstoff unterstützen. Dazu wurden öffentlich zugängliche Covid-19-Datenquellen, Patentschriften sowie Datensätze aus Genom- und molekularbiologischen Datenbanken miteinander verknüpft. Derzeit umfasst der Knowledge Graph mehr als 16 Mio. Knoten und über 65 Mio. Kanten, wobei die Datenbank mit jedem Tag weiterwächst.

In der Verknüpfung der Daten steckt großes Potenzial. So lassen sich beispielsweise mit nur wenigen Abfrageschritten (Queries) alle wissenschaftlichen Publikationen/Patente ermitteln, die sowohl einen mit Covid-19 verwandten Virustypen (z.B. H1N1 oder Mers-COV) als auch ein bestimmtes Gen/Protein erwähnen.

Die Schnittmenge an relevanten Informationen kann weiter untersucht, nach zusätzlichen Kriterien gefiltert oder mit anderen Datensätzen verglichen werden. Graph-Algorithmen helfen bei der Auswertung, eine Visualisierungs-App ermöglicht es auch technisch weniger versierten Anwendern, sicher durch das Meer von Daten zu navigieren. Für die Publikationen können Abstracts und Volltext direkt in der App eingesehen werden.

Neben dem DZD und den Knowledge-Graph-Spezialisten Kaiser & Preusse wird die Initiative u.a. von den Neo4j-Partnern Graphileon, Linkurious, Prodyna und Structr sowie dem Technologie-Partner yworks unterstützt. Wissenschaftler und Forscher sind eingeladen, den Covidgraph in der Praxis zu testen und eigene Use Cases einzubringen.

* D. Möller: Neo4j, 80331 München

(ID:46597859)

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung