Graphtechnologie in der medizinischen Forschung Vernetzt gegen Diabetes: Wie Big Data harmonisieren?
Die Harmonisierung von Big Data ist in vielen Forschungsbereichen derzeit ein großes Thema. Um die riesigen und heterogenen Datenmengen aus der medizinischen Forschung standortübergreifend und effizienter zu nutzen, setzt das Deutsche Zentrum für Diabetesforschung (DZD) für sein Daten- und Knowledge-Management auf eine Graphdatenbank. Wie die Forschung an der Volkskrankheit Diabetes davon direkt profitiert, lesen Sie hier.
Anbieter zum Thema

Rund 6,7 Millionen Menschen in Deutschland leiden unter Diabetes – davon etwa 90% unter der nicht genetisch bedingten Form Diabetes mellitus (Typ 2). Damit gehört Diabetes zu den bedeutendsten Volkskrankheiten in Deutschland und in anderen Industrienationen. Um neue Methoden zur Prävention und Behandlung von Diabetes zu entwickeln, wurde im Jahr 2009 das Deutsche Zentrum für Diabetesforschung (DZD) vom Bundesministerium für Bildung und Forschung (BMBF) gegründet. Dieser Forschungsverbund bündelt auf nationaler Ebene Experten aus Universitätskliniken und Forschungseinrichtungen, um disziplinübergreifend und mithilfe modernster biomedizinischer Technologien, Erkenntnisse zur Entstehung, zum Verlauf und zu Behandlungsmöglichkeiten von Diabetes zu gewinnen.
Harmonisierung heterogener Daten aus der Diabetesforschung
Die Harmonisierung von Big Data ist in vielen Forschungsbereichen heutzutage ein großes Thema – insbesondere in der medizinischen Forschung. Das DZD verfügt über eine riesige Anzahl heterogener Daten, die über die verschiedenen Standorte deutschlandweit verteilt sind. Dazu gehören neben Daten und Informationen aus der Grundlagenforschung auch klinische Studien, Berichte, Umfragen, Fachliteratur, Patientenproben und internationale Forschungsprojekte. Zusätzlich angereichert wird dieser Datenberg durch moderne, disziplinübergreifende Forschungsmethoden, die fortlaufend neue Daten generieren. Denn es ist schon lange unzureichend, Krankheitsursachen nur von einer Perspektive aus zu beleuchten. So verknüpfen die Wissenschaftler des DZD beispielsweise molekulare Humandaten aus der Grundlagenforschung mit Daten aus Tiermodellen, um neue Erkenntnisse zu gewinnen.
Um von diesem heterogenen Datenberg eine holistische Ansicht der Informationen zu erhalten, baut das Deutsche Zentrum für Diabetesforschung eine übergeordnete Datenbank auf. Das zentrale Daten- und Knowledge-Management verfolgt das Ziel, den 400 beteiligten Wissenschaftlern standort-, disziplin-, spezies- und datenübergreifend Zugriff auf alle relevanten Information zu ermöglichen und die Daten in einen Kontext zu bringen.
Als die Bioinformatiker des DZD ein Konzept für die zentrale Datenbank entwickelten, ging es nicht allein um eine Datenbank zur Datenspeicherung, sondern auch um die Möglichkeit, die Beziehungen zwischen den Daten zu nutzen. Diese Anforderungen erfüllt die Graphdatenbank Neo4j. Im Gegensatz zu relationalen Datenbanken liegt die Stärke bei Graphdatenbanken darin, Datensätze und ihre Beziehungen untereinander in Echtzeit abzufragen. Dabei sind die Vorteile die Geschwindigkeit und die einfache Modellierung der Daten. Ein Graph besteht dabei aus Knoten (z.B. Patient, Bio-Sample, Studie) und Kanten (z.B. „enthält“, „untersucht“, „misst“). Beiden kann eine beliebige Anzahl qualitativer und quantitativer Eigenschaften zugewiesen werden, beispielsweise Messparameter und Werte.
Gemeinsames Forschen – ein Informationskontext
Auf Grundlage der Graphdatenbank Neo4j entwickelten die DZD-Bioinformatiker die Graphdatenbank namens DZD connect. Diese liegt als Zwischenschicht über den relationalen Datenbanken und greift auf bestehende Systeme und Datensilos im DZD zu. Für einen zentralen Zugriff auf alle Informationen im DZD war im ersten Schritt eine einheitliche Datengrundlage nötig. Die Metadaten mussten standardisiert, normalisiert und in das Graphmodell integriert werden. Nur so können die Messergebnisse und Daten verglichen und Lücken und Redundanzen vermieden werden.
Im Graphen selbst entsteht schnell ein reichhaltiger Kontext an Informationen, der den Datenverbindungen einen besonderen Stellenwert einräumt. Forscher können in Echtzeit Informationen wie Messwerte, Langzeitstudien von Diabeteserkrankten oder Tiermodelldaten abrufen. Weitere Vorteile dieser Technologie sind die Skalierbarkeit des Systems und die Möglichkeit, Daten jederzeit zu ergänzen. Informationen zu neuen Studien, Fachliteratur, Patienten oder neuen Forschungsergebnissen lassen sich schnell und einfach hinzufügen und aktualisieren.
(ID:45580078)