English China

Datenspeicher In DNA gemeißelt: DNA als Speichermedium

Ein Gastbeitrag von Dr. Hannah Franziska Löchel und Prof. Dr. Dominik Heider*

Durch die Digitalisierung wächst die Menge an zu speichernden Daten exponentiell. DNA bietet eine robuste und kompakte Alternative zu herkömmlichen Speichermedien. Dazu müssen neue Methoden entwickelt werden, die speziell an die Eigenschaften von DNA angepasst sind.

Anbieter zum Thema

Abb. 1: Digitale Informationen werden binär gespeichert, so wird jede Datei in eine Folge aus 
0 und 1 codiert. DNA besteht aus den vier Nukleotiden Adenin (A), Cytosin (C), Guanin (G) und Thymin (T). Eine Übersetzung von binären Daten in die vier Basen (quartär) ist also leicht umzusetzen.
Abb. 1: Digitale Informationen werden binär gespeichert, so wird jede Datei in eine Folge aus 
0 und 1 codiert. DNA besteht aus den vier Nukleotiden Adenin (A), Cytosin (C), Guanin (G) und Thymin (T). Eine Übersetzung von binären Daten in die vier Basen (quartär) ist also leicht umzusetzen.
(Bild: © BlackMac; Mopic; ktsdesign - stock.adobe.com)

Die Weitergabe von Informationen ermöglicht es uns, auf Erkenntnissen, die wir in der Vergangenheit gewonnen haben, aufzubauen. Dabei ist Sprache eine Möglichkeit, Erlerntes an die nachkommende Generation weiter zugeben. Mit der Entwicklung von Schrift (Codierung von Lauten zu Zeichen) konnte im Laufe der Menschheitsgeschichte das erworbene Wissen noch zuverlässiger weitergeben werden. Zunächst wurden dafür Steintafeln oder Holz, später Papier verwendet. Mit dem Buchdruck wurde diese Weitergabe zum ersten Mal automatisiert und damit revolutioniert.

Im Laufe der Zeit haben wir verschiedene Verfahren entwickelt, das gewonnene Wissen zu archivieren, um es für kommende Generationen zugänglich zu machen. Im letzten Jahrhundert wurden immer mehr Medien und Technologien entwickelt, um neben Texten auch Audiosignale (z. B. Schallplatten, Kassetten, CDs) oder Videos (Bänder, VHS, DVDs) zu speichern und so zu archivieren.

Durch die Verbreitung des Computers und die damit voranschreitende Digitalisierung liegen inzwischen ein Großteil der Informationen in digitaler Form vor oder werden in diese überführt. Die digitale Speicherung hat dabei viele Vorteile gegenüber der analogen Speicherung (Schrift Bild etc.), z. B. große Speicherkapazitäten auf kleinstem Raum, einfaches und schnelles Kopieren und das effiziente Durchsuchen nach Schlagwörtern.

Über sehr lange Zeiträume ist die Archivierung von digitalen Daten jedoch eine Herausforderung. Die verwendeten Speichermedien wie Bänder, Festplatten, CDs und DVDs sind nur bedingt haltbar. Sie basieren auf magnetischen Beschichtungen bzw. optischen Reflexionsschichten, die nur wenige Jahre lesbar sind und deswegen in regelmäßigen Abständen kopiert werden müssen. Es muss also ein hoher Wartungsaufwand betrieben werden, um die Daten über einen längeren Zeitraum zu erhalten und Informationsverlust zu vermeiden. Dieses fundamentale Problem wird oft mit der Gefahr eines „Digital Dark Age“ in Verbindung gebracht, also einer Zukunft, in der jegliche digitalen Informationen verloren gegangen sind. Oft werden in diesem Zusammenhang beispielsweise das Fehlen von Technologien zum Lesen der Datenträger oder der Verlust von digitalen Informationen durch ein Carrington-Ereignis, d. h. magnetische Sonnenstürme genannt [1, 2].

Computer, Digitalisierung und Big Data

Die Langzeitdatenspeicherung und Informations(de)codierung ist von epochaler Bedeutung. Veraltete Formate, die aufgrund ihrer Codierung oder Verschleiß nicht mehr lesbar sind, führen schon jetzt zu Informationsverlust. Gleichzeitig wächst die Menge an Daten täglich. Unsere Zeit ist durch den Begriff Big Data geprägt, welcher in vielen verschiedenen Anwendungsbereichen aufgegriffen wird. Täglich werden komplexere und v. a. größere Datenmengen erzeugt. Mittelfristig sind die bisher verwendeten Speichersysteme dafür nicht mehr ausreichend, da die Menge an Daten exponentiell wächst.

Eine Möglichkeit, dieses Problem der Langzeitarchivierung zu lösen ist es, DNA als Speichermedium zu verwenden. Im Vergleich zu den traditionellen Speichern hat diese das Potenzial zu einer höheren Speicherkapazität und längeren Haltbarkeit. Das Umkopieren der Daten könnte durch die verlängerte Haltbarkeit unnötig werden, zudem ließen sich die Daten in molekularen Speichern sehr kompakt aufbewahren.

Vorteile von DNA als Speichermedium

Die enorme Speicherkapazität von DNA lässt sich sehr gut am menschlichen Genom verdeutlichen, welches aus 23 Chromosomenpaaren mit insgesamt etwa 6 Milliarden Basenpaaren besteht. Aneinandergereiht entspricht dies etwa einer Länge von 2 m DNA pro Zelle. In 1 kg DNA ließen sich so alle Daten der Welt speichern [1]. Im Vergleich dazu würde man etwa 44 Milliarden Festplatten mit 500 GB Speichervolumen benötigen [1], was fast der geschätzten Anzahl an Sternen in unserer Milchstraße entspricht [2] (s. Abb. 2). Neben der enormen Datendichte von DNA hat sie zudem unter optimalen Bedingungen eine extrem lange Haltbarkeit. So konnten z. B. Gensequenzen von ~50.000 Jahre alten Neandertaler-Knochen als auch die ~700.000 Jahre alten Überreste eines Pferdes aus dem arktischen Permafrost gewonnen werden.

Abb. 2: Vergleich traditioneller Speichermedien mit DNA als Speichermedium [7].
Abb. 2: Vergleich traditioneller Speichermedien mit DNA als Speichermedium [7].
(Bild: Philipps-Universität Marburg)

Durch beschleunigte Alterungsstudien von künstlich fossilierter DNA wird ihre Aufbewahrungszeit auf ca. 2.000 Jahre bei 10 °C und bis zu 2 Millionen Jahre bei –18 °C geschätzt. Neuere Studien rechnen sogar mit 4 Millionen Jahren bei 20 °C und 20 Millionen Jahren bei 10 °C in trockener Umgebung. Die treibende Kraft für den Informationsverlust bei der Lagerung von DNA ist dabei die Hydrolyse, sodass die Lagerbedingungen einen enormen Einfluss auf ihre Haltbarkeit haben.

Bei der Lagerung von DNA ist auch eine in-vivo-Speicherung denkbar. Dabei würden die in DNA codierten Informationen in Bakterien eingeschleust werden. Das hat den Vorteil, dass die DNA in einer stabilen Umgebung lagert und diese durch die Zellteilung der Bakterien einfach kopiert werden kann. Im Vergleich zu traditionellen Speichern wie Festplatten oder Flashspeichern mit einer Datendichte von ca. 1013 bzw. 1016 bits pro cm3, erreicht DNA eine Datendichte von 1019 bits pro cm3, oder in anderen Worten eine Datendichte von 1 Milliarde TB pro Gramm mit einer enormen molekularen Stabilität [1].

Codierung von Informationen in DNA

Digitale Informationen werden binär gespeichert, so wird jede Datei in eine Folge aus 0 und 1 codiert. DNA jedoch besteht aus den vier Nukleotiden Adenin (A), Cytosin (C), Guanin (G) und Thymin (T), welche in beliebiger Reihenfolge kovalent als Polymer verbundenen sein können. DNA ist komplementär aufgebaut, d. h. zu jedem Strang existiert ein Gegenstrang. Jeweils die Nukleotide Adenin und Thymin und Guanin mit Cytosin binden über Wasserstoffbrückenbindungen.

Eine Übersetzung von binären Daten in die vier Basen (quartär) ist also leicht umzusetzen. Dabei tauchen ähnliche Herausforderungen bei der Codierung von Informationen in DNA auf wie in der binären Codierung. Bei der Speicherung können Fehler durch das Schreiben, Lesen oder die Lagerung (s. Abb. 3) entstehen. Diese Fehler müssen korrigiert werden können, d. h. um z. B. einen Text zu speichern, müssen die einzelnen Buchstaben im Text zunächst binären Zahlenfolgen (oder einer DNA-Sequenz) zugewiesen werden.

Abb. 3: DNA als Datenspeicher: Digitale Daten werden in DNA übersetzt (Encoding) und synthetisiert, diese kann entweder in vivo oder in vitro gelagert werden. Durch Sequenzierung kann die DNA wieder ausgelesen und zurück in eine digitale Datei übersetzt werden (Decoding).
Abb. 3: DNA als Datenspeicher: Digitale Daten werden in DNA übersetzt (Encoding) und synthetisiert, diese kann entweder in vivo oder in vitro gelagert werden. Durch Sequenzierung kann die DNA wieder ausgelesen und zurück in eine digitale Datei übersetzt werden (Decoding).
(Bild: Philipps-Universität Marburg)

Dieser Schritt wird als Codierung bezeichnet. Für Text gibt es beispielsweise das ASCII oder die UTF-8-Codierungen im digitalen Bereich. Diese so genannten Codes dienen dann auch zur Fehlerkorrektur. Die Auswahl der binären Zahlenfolge ist so gestaltet, dass Fehler erkannt und korrigiert werden können. Ähnliche Konzepte werden auch für DNA benötigt. Durch die chemischen und biologischen Eigenschaften entstehen dabei jedoch Limitierungen, die berücksichtigt werden müssen. Die Stabilität von DNA wird stark vom GC-Gehalt beeinflusst (Anteil der Nukleotide Cytosin und Guanin). Cytosin und Guanin binden dabei mit je drei Wasserstoffbrücken, Adenin und Thymin mit zwei Wasserstoffbrückenbindungen. Bei der Verwendung von DNA ist darauf zu achten, einen stabilen GC-Gehalt von 40 bis 60 % einzuhalten.

Außerhalb dieses Bereiches wird die DNA instabil, was zu Degeneration und Informationsverlust bei der Lagerung, Synthese oder dem Auslesen führen kann. Zudem können Homopolymere (längere Wiederholungen desselben Nukleotides) nur schwer ausgelesen werden. Durch die zur Zeit verwendeten Sequenzierungstechniken ist es oft schwierig, die exakte Länge eines Homopolymers zu bestimmen. Darüber hinaus sind bestimmte Motive, je nach Sequenzierungstechnik, oft fehleranfälliger. Als Motive werden kurze, spezifische DNA Abschnitte bezeichnet. Diese können zudem auch eine Rolle bei der Synthese spielen, so dass bestimmte Abschnitte in der DNA für Primer reserviert bleiben müssen und nicht mit Informationen beladen werden dürfen. Motive spielen darüber hinaus eine große Rolle bei der in-vivo-Speicherung. Zum einen müssen Sequenzen vermieden werden, die zum Ablesen der DNA führen können, aber auch zum Verlust der DNA bei der Zellteilung [3].

DNA als Speichermedium – was ist „state of the art“

Die ersten Ansätze zur Informationsspeicherung in DNA finden sich bereits 1999. Dabei wurden einzelne Buchstaben/Zahlen Triplets zugeordnet [4]. Diese Technik wurde aber weniger zum Speichern größerer Datenmengen verwendet, sondern um geheime Botschaften in die DNA einzubringen [5].

In den letzten 20 Jahren wurden immer bessere Algorithmen entwickelt, um Informationen in DNA zu speichern. Dabei kommen oft ähnliche Techniken wie bei der Speicherung von digitalen Informationen zur Anwendung. Zeitgleich wurden immer bessere Methoden entwickelt, DNA schnell auszulesen. So genannte Next-Generation-Sequencing (NGS) -Methoden ermöglichen das Auslesen von DNA inzwischen sogar durch tragbare Geräte in der Größe eines Smartphones.

In neueren Ansätzen für die Speicherung von Informationen in DNA werden dabei Algorithmen verwendet, die ursprünglich zur Behandlung von Fehlern bei der Übertragung von Daten in Rechnernetzen eingesetzt wurden. Dabei wurden die Algorithmen immer besser an die Eigenschaften der DNA angepasst und die Limitierungen durch ihre chemischen und biologischen Eigenschaften berücksichtigt. Inzwischen konnten so schon Liedtexte, Bilder und Bücher in DNA gespeichert werden. Die Aufbewahrung der DNA ist dabei zumeist in vitro.

Abb. 4: Zusammen mit dem Hightech-Forum (https://www.hightech-forum.de/en/) wurden 400 Röhrchen mit Speicher- DNA an ausgewählte TeilnehmerInnen versendet [6].
Abb. 4: Zusammen mit dem Hightech-Forum (https://www.hightech-forum.de/en/) wurden 400 Röhrchen mit Speicher- DNA an ausgewählte TeilnehmerInnen versendet [6].
(Bild: Philipps-Universität Marburg)

Der Entwicklung dieser Algorithmen widmet sich auch der Loewe Schwerpunkt Mosla (Molekulare Speicher zur Langzeit-Archivierung). Dabei bearbeitete das Team sowohl die in-vitro- als auch Fragestellungen der in-vivo-Speicherung. U. a. wurde so 2021 der Ergebnisbericht des Hightech-Forums in DNA gespeichert (s. Abb. 4). Diese 400 Röhrchen wurden an Interessierte versendet, die diese in vier Jahren zurücksenden können. Das Team plant dann die Röhrchen wieder zu decodieren und so als Alterungsexperiment zu nutzen [6]. Darüber hinaus konnte das Team kürzlich eine Methode entwickeln, um mit DNA Wörter zu erzeugen, die neben eines stabilen GC-Gehalts und dem Vermeiden von Homopolymeren auch benutzerdefinierte Motive ausschließen können. Dieser Ansatz ermöglicht es, flexibel auf Synthesetechniken und Lagerung reagieren zu können und bildet so eine Basis für weitere Codierungsalgorithmen [7]. Weitere Algorithmen aus Mosla ermöglichen den random access [8], also das Auslesen nur bestimmter Daten aus dem DNA-Speicher und bringen diese damit der kommerziellen Nutzung immer näher.

Literatur:

[1] Extance A (2016): How DNA could store all the world's data. (2016)

[2] https://www.nationalgeographic.de/wissenschaft/2018/01/10-fakten-ueber-unsere-milchstrasse

[3] Schwarz, M., Welzel, M., Kabdullayeva, T., Becker, A., Freisleben, B., & Heider, D. (2020). MESA: automated assessment of synthetic DNA fragments and simulation of DNA synthesis, storage, sequencing and PCR errors. Bioinformatics, 36(11), 3322-3326.

[4] Clelland, C. T., Risca, V., & Bancroft, C. (1999). Hiding messages in DNA microdots. Nature, 399(6736), 533-534.

[5] Heider, D., & Barnekow, A. (2007). DNA-based watermarks using the DNA-Crypt algorithm. BMC bioinformatics, 8(1), 1-10.

[6] https://mosla.mathematik.uni-marburg.de/dna-speicher-zum-anfassen/

[7] Löchel, H. F., Welzel, M., Hattab, G., Hauschild, A. C., & Heider, D. (2021). Fractal construction of constrained code words for DNA storage systems. Nucleic acids research.

[8] El-Shaikh, A., Welzel, M., Heider, D., & Seeger, B. (2022). High-scale random access on DNA storage systems. NAR Genomics and Bioinformatics, 4(1)

* Dr. H. F. Löchel, Prof. Dr. D. Heider, Philipps-Universität Marburg, 35032 Marburg

(ID:47992815)