Suchen

Zukunft von Labordaten

Big Data? Clean Data!

| Autor/ Redakteur: Florian Hauer* / Dipl.-Chem. Marc Platthaus

Jeden Tag generieren Anwender im Labor Terabyte-große Datenmengen. Doch nicht nur diese können für die Entwicklung eingesetzt werden. Was geschieht mit den Alt-Daten, die auf Festplatten schlummern? Welche Voraussetzungen müssen sie erfüllen, um optimal eingesetzt werden zu können?

Firmen zum Thema

Abb.1: Der optimale Nutzen von Labordaten lässt sich nur dann erschließen, wenn diese „sauber“ sind.
Abb.1: Der optimale Nutzen von Labordaten lässt sich nur dann erschließen, wenn diese „sauber“ sind.
(Bild: Labfolder)

Es ist das ultimative Ziel der Wissenschaft: Daten so intelligent zu verknüpfen und zu nutzen, dass aus alten Daten neue Werte geschaffen werden können. So könnten solche alten Daten zur Optimierung von Forschungs- und Produktionsprozessen genutzt werden. Sogar neue Forschungsergebnisse und Anwendungen könnten so aus Bestandsdaten generiert werden. Trotz aller Versprechungen müssen wir allerdings ehrlich sein: In den meisten Laboren sind Big-Data-Anwendungen mit allen ihren Vorteilen noch weit von der Anwendungsrealität entfernt.

In den meisten Laboren ist das Datenmanagement vor allem darauf ausgerichtet, Compliance gegenüber Richtlinien und internationalen Qualitätsmanagementsystemen zu erreichen oder Auftragsarbeiten nach Kundenwunsch zu dokumentieren. Eine gezielte Standardisierung oder Aufbereitung der Daten für eine spätere Anwendung für Big-Data-Metaanalysen findet nur in den seltensten Fällen statt. Dadurch sammeln sich über Jahrzehnte zwar beträchtliche Datenberge an. Gewinnbringend nutzbar sind diese jedoch nur in den wenigsten Fällen.

Bildergalerie

Künstliche Intelligenz auf dem Vormarsch

Dass große Datenmengen ungeheuer wertvoll sein können, zeigt sich insbesondere im aktuellen Trend der künstlichen Intelligenz: Neue Deep-Learning-Methoden haben in letzter Zeit bahnbrechende Erfolge in der Klassifizierung von Daten und im Machine Learning erzielt. So werden Aufgaben wie die Klassifizierung von komplexen Datensätzen, Bild- und Spracherkennung sowie -bearbeitung und Übersetzung teilweise mit einer Genauigkeit gelöst, die menschliche Experten deutlich übertrifft. Auch in der Bioinformatik werden mit Deep-Learning-Algorithmen immer neue Erfolge erzielt: Von der Voraussage von Strukturen, Interaktions- und Bindungsmustern von Biomolekülen aller Gattungen, Gensequenzanalysen, Toxizitätsvoraussagen und komplexen Bildanalysen von Mikroskopiebildern und medizinischen Bilddaten sind die Anwendungsmöglichkeiten scheinbar unbegrenzt.

So haben neuronale Netze und Deep Learning nach einem langen Winter einen neuen Frühling der Künstlichen-Intelligenz-Forschung (KI) eingeleitet.

Doch warum sind sie so erfolgreich? Neuronale Netzwerke sind einem vereinfachten Modell des Gehirns nachempfunden: Informationen werden durch ein mehrschichtiges Neuronenmodell geführt, dieses „lernt“, welche Verbindungen auf welcher Ebene – und damit welche Abstraktionsmodelle – zur Repräsentation der Klassen oder der Bedeutung eines Datensatzes besonders hilfreich sind. So können in einem selbstlernenden System Zusammenhänge herausgearbeitet werden, die konventionellen Analysen unter Umständen verborgen bleiben.

Allerdings funktionieren diese Algorithmen in der Regel nur mit einer großen Menge von preklassifizierten („gelabelten“) Daten. Allein mit großen Datenmengen lassen sich auch in den klassischen Data Sciences, die Zusammenhänge nicht mit Deep Learning, sondern mit Korrelationsanalysen und Heuristiken ausfindig machen, keine Erfolge erzielen. Datenmengen müssen nicht nur groß, sondern auch „sauber“ sein – ohne Clean Data kein Big Data.

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de (ID: 44899329)