Suchen

Wissensdatenbanken Covid-19: Wie Knowledge Graphen die Forschung antreiben

| Autor / Redakteur: Dirk Möller* / Dr. Ilka Ottleben

Die Heterogenität von Daten in der medizinischen Forschung ist enorm. Das wird auch bei der Suche nach einem Covid-19-Impfstoff allzu deutlich. Um wissenschaftliche Daten schneller und gezielter auswerten zu können, setzen Forscher daher verstärkt auf Datenanalytik und Knowledge Graphen.

Firmen zum Thema

Abb. 1: Visualisierung in Neo4j Bloom von Publikationen/Erwähnungen des Gens ACE2
Abb. 1: Visualisierung in Neo4j Bloom von Publikationen/Erwähnungen des Gens ACE2
(Bild: CovidGraph)

Knowledge Graphen sind Wissensdatenbanken, in denen eine große Anzahl heterogener Daten aus unterschiedlichen Quellen verknüpft wird. Das Besondere: Nicht nur einzelne Daten lassen sich speichern und abfragen, sondern auch die Beziehungen zwischen den Daten. Daten werden als Knoten, die Verbindung zwischen den Daten als Linien dargestellt. Dieses intuitiv nachvollziehbare Modell bildet selbst komplexes Wissen anschaulich ab. Zusammenhänge und Muster lassen sich deutlich einfacher und schneller erkennen, neue Datensätze können problemlos als neues Knoten-Kanten-Element hinzugefügt werden.

Vernetzte Daten für die Medikamentenentwicklung

In der Praxis kommen Knowledge Graphen in den unterschiedlichsten Bereichen zum Einsatz – von der Betrugsaufdeckung in Banken über Recommendation Engines im Online Shop bis zur Planung von Logistikrouten. In der Forschung stellen Knowledge Graphen die Datengrundlage, um einrichtungs- und disziplinübergreifend Erkenntnisse zu vernetzen.

Bildergalerie

Das Novartis-Institut für biomedizinische Forschung nutzt die Graphdatenbank Neo4j, um Daten aus jahrzehntelanger Forschungsarbeit sowie Terabytes an neuen phänotypischen Daten zu verknüpfen und im Kontext der weltweiten medizinischen Forschung zu analysieren. Der Knowledge Graph erfasst alle Elemente, um biologische Prozesse nachvollziehbar abzubilden. So kann das Pharmaunternehmen testen, welcher Wirkstoff und welche Targets am engsten mit einer Krankheit verbunden sind und die Entwicklung von Medikamenten vorantreiben.

Auch das Deutsche Zentrum für Diabetesforschung (DZD) hat auf Basis von Neo4j eine zentrale Wissensdatenbank aufgebaut, mit der rund 400 beteiligte Wissenschaftler standortübergreifend neuen Fragen nachgehen können. Warum erkranken manche Menschen an Diabetes, andere nicht? Welche Rolle spielen dabei Gene, Ernährung, Bewegung und Umweltfaktoren? Lässt sich schon in jungen Jahren das Diabetesrisiko bestimmen? Und wie kann man der Erkrankung entsprechend vorbeugen?

Covidgraph: Zentraler Covid-19-Wissenshub

Mit ganz ähnlichen Fragen beschäftigt sich auch das Projekt Covidgraph, das Anfang März auf dem Höhepunkt der Covid-19-Krise ins Leben gerufen wurde. Wissenschaftler, Entwickler und Data Scientists schlossen sich zusammen, um einen Knowledge Graphen aufzubauen und aktuelle wissenschaftliche Informationen zum Coronavirus in einem zentralen Wissenshub zusammenzuführen.

Das gemeinnützige Projekt soll Forschern einen freien und unkomplizierten Zugriff auf Daten ermöglichen – und damit langfristig bei der Suche nach einem Impfstoff unterstützen. Dazu wurden öffentlich zugängliche Covid-19-Datenquellen, Patentschriften sowie Datensätze aus Genom- und molekularbiologischen Datenbanken miteinander verknüpft. Derzeit umfasst der Knowledge Graph mehr als 16 Mio. Knoten und über 65 Mio. Kanten, wobei die Datenbank mit jedem Tag weiterwächst.

In der Verknüpfung der Daten steckt großes Potenzial. So lassen sich beispielsweise mit nur wenigen Abfrageschritten (Queries) alle wissenschaftlichen Publikationen/Patente ermitteln, die sowohl einen mit Covid-19 verwandten Virustypen (z.B. H1N1 oder Mers-COV) als auch ein bestimmtes Gen/Protein erwähnen.

Die Schnittmenge an relevanten Informationen kann weiter untersucht, nach zusätzlichen Kriterien gefiltert oder mit anderen Datensätzen verglichen werden. Graph-Algorithmen helfen bei der Auswertung, eine Visualisierungs-App ermöglicht es auch technisch weniger versierten Anwendern, sicher durch das Meer von Daten zu navigieren. Für die Publikationen können Abstracts und Volltext direkt in der App eingesehen werden.

Neben dem DZD und den Knowledge-Graph-Spezialisten Kaiser & Preusse wird die Initiative u.a. von den Neo4j-Partnern Graphileon, Linkurious, Prodyna und Structr sowie dem Technologie-Partner yworks unterstützt. Wissenschaftler und Forscher sind eingeladen, den Covidgraph in der Praxis zu testen und eigene Use Cases einzubringen.

* D. Möller: Neo4j, 80331 München

(ID:46597859)