Worldwide China

Hochdurchsatzdaten selbst auswerten

Selbst ist der Forscher: Big-Data-Analysen leicht gemacht

| Autor / Redakteur: Dr. Anika Erxleben & Dr. Björn Grüning* / Dr. Ilka Ottleben

Abb. 1: In Zeiten von Big Data sind viele in den Lebenswissenschaften erhobene Daten wie Sequenzinformationen kaum noch „per Hand“ auszuwerten. Hochkomplexe Softwareprogramme helfen, sind jedoch nicht leicht zu bedienen.
Abb. 1: In Zeiten von Big Data sind viele in den Lebenswissenschaften erhobene Daten wie Sequenzinformationen kaum noch „per Hand“ auszuwerten. Hochkomplexe Softwareprogramme helfen, sind jedoch nicht leicht zu bedienen. (Bild: ©lily - stock.adobe.com)

Die Analyse teils mühselig erhobener Daten geben Forscher nur ungern aus der Hand. Doch in Zeiten von Big Data kann genau diese Aufgabe einen in IT weniger versierten Lebenswissenschaftler an seine Grenzen bringen. Hochkomplexe Programme ohne Informatikkenntnisse selbst anwenden? Der neue Galaxy Europe Server macht das nun möglich.

Viele Lebenswissenschaftler kennen das: Vom Sequen­zierlabor kommt eine E-Mail, dass die Rohdaten der RNA-Sequenzierung oder des ChIP-Experimentes zum Download bereitstehen. Um die Hochdurchsatzdaten auszuwerten, werden im Studium selten ausreichende Kenntnisse zur statistischen Auswertung vermittelt. Zur Auswertung geeignete Software ist oft kommerziell. Um kostenfreie Open Source Software nutzen zu können, sind hingegen fast immer Programmierkenntnisse notwendig und viele Programme sind in Windows nicht lauffähig. All dies stellt viele Forscher vor große Probleme.

Die meisten Wissenschaftler möchten ihre Daten gerne selbst auswerten oder sich zumindest daran beteiligen. Das Freiburg-Galaxy-Team am Lehrstuhl für Bioinformatik (Prof. Rolf Backofen) der Universität Freiburg unterstützt diese Forscher, indem sie Open-Source-Programmen in Galaxy eine grafische Oberfläche geben. Auf diese Weise ist es jedem Wissenschaftler möglich, hochkomplexe Programme ohne Informatikkenntnisse selbst zu verwenden, um eigenständig beispielsweise Big Data aus Sequenzier-Projekten auszuwerten.

Über 1500 Datenanalyse-Tools frei verfügbar

Galaxy ist ein weltweites Projekt, das eine Plattform entwickelt, die es ermöglicht, wissenschaftliche Daten in einer transparenten und reproduzierbaren Art und Weise zu analysieren. Dafür ist kein Download und keine Installation einer Software notwendig. Galaxy kann einfach über einen Webbrowser (z.B. Chrome oder Firefox) aufgerufen und bedient werden. Das Freiburg-Galaxy-Team entwickelt und unterhält den offiziellen Galaxy Europe Server, der einer der größten Galaxy Server weltweit ist. Nach einer für jeden kostenfreien Registrierung auf der Webseite stehen dem Nutzer über 1500 verschiedene Datenanalyse-Tools zur Verfügung. Die Tools können frei in so genannten Workflows miteinander kombiniert werden. Ein Herunterladen der Ergebnisse einer Analyse und anschließendes Hochladen des Ergebnisses als Input eines neues Analyse-Schritts entfällt.

Um Tools miteinander kombinieren zu können, kann Galaxy 300 definierte Dateiformate prozessieren (z.B. bam, bcf, bed, bedgraph) und bietet dafür verschiedene Konvertierungen zwischen den Formaten an. Jeder Analyseschritt wird in einer History dokumentiert und Rechenschritte mit allen Einstellungen zu Parametern und Tool-Version darin gespeichert. Die History ähnelt einem elektronischen Laborbuch, nur dass man Historys und die Workflows auch mit anderen Galaxy-Benutzern (oder über einen Link mit Externen) teilen und später auch als Methodenteil einer Publikation veröffentlichen kann.

Galaxy-Tools: Textanalyse bis komplexe Datenauswertung

Die Bandbreite der Galaxy-Tools reicht von einfachen Textanalyse-Tools bis zu komplexen Programmen zur Datenauswertung von z.B. RNAseq, ChIPseq, Exome-Seq, Methylierungen, Metagenomics, Genome-Annotation oder Cheminformatics. Wissenschaftler auf dem Gebiet der Epigenetik beispielsweise nutzen den Galaxy HiC-Explorer, um die 3D-Konformation der DNA in der Zelle zu studieren. Die DNA liegt im Zellkern stark kondensiert und dicht gepackt als Chromatin vor. Entgegen jahrelanger Annahme, dass nur Gene in direkter Nachbarschaft miteinander interagieren, weiß man inzwischen, dass auch auf einem DNA-Strang weit entfernte Bereiche durch die topologische Lage zueinander zusammen reguliert werden können. Für die Analyse werden dafür die Rohdaten der Sequenzierung gegen ein Referenzgenom gemappt, dann die HiC-Kontaktmatrix erstellt, nach einer Qualitätskontrolle der Daten werden dann die topologisch assoziierten Domänen der DNA identifiziert und visualisiert (Weitere Informationen zum Galaxy HiC-Explorer gibt es auf https://hicexplorer.usegalaxy.eu [1]).

Forscher, die sich dagegen für die Zusammensetzung des Mikrobioms des Verdauungstrakt des Menschen interessieren, arbeiten zumeist mit Tools aus dem Bereich Metagenomics. Für Metagenomics-Datenanalysen werden Sequenzdaten von hunderten Organismen gleichzeitig analysiert, was mehrere Terabytes an Daten produziert. Mit dem Galaxy-Tool ASaiM [2] lassen sich die Analysen ohne Programmierkenntnisse zügig durchführen und die Ergebnisse gleich visualisieren. Mit den Tools zur Textmanipulation lässt sich beispielsweise Excel ersetzen. Einfache Funktionen, wie Einträge in Dateien zählen, Zeilen oder Spalten vereinen, Text ersetzen etc. können so einfach und schnell auf vielen hunderttausend Zeilen oder Spalten ausgeführt werden.

Inhalt des Artikels:

Kommentare werden geladen....

Kommentar zu diesem Artikel abgeben

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45497970 / Bio- & Pharmaanalytik)