Gene sequenzieren ist längst eine Standardoperation in biologischen Laboren. Doch die genetischen Codes in ihrer biologischen Funktion zu interpretieren, stellt nach wie vor eine Herausforderung dar. Hierbei könnte künftig ein neues KI-Modell helfen, welches die Sprache der DNA übersetzen soll.
Künstlerische Darstellung des Large Language Models, das auf DNA-Sequenzen trainiert wurde.
(Bild: Dall-E / von Magdalena Gonciarz / KI-generiert)
Seit der Entdeckung der Doppelhelix suchen Forschende nach dem in der DNA verschlüsselten Wissen. 70 Jahre später ist klar, dass die in der DNA verborgenen Informationen vielschichtig sind. Nur ein bis zwei Prozent des Genoms bestehen tatsächlich aus Genen, also jenen Sequenzen, die für Proteine codieren. Und was ist mit dem Rest?
„DNA hat viele Funktionen, die über die Proteincodierung hinausgehen“, sagt Dr. Anna Poetsch. Einige Sequenzen regulieren Gene, andere dienen strukturellen Zwecken, die meisten Sequenzen erfüllen mehrere Funktionen gleichzeitig, wie die Forschungsgruppenleiterin am Biotechnologischen Zentrum (Biotec) der Technischen Universität Dresden erklärt. „Derzeit verstehen wir die Bedeutung des größten Teils der DNA nicht. Für die Bereiche außerhalb von Genen scheinen wir erst an der Oberfläche gekratzt zu haben. Hier können KI und Large Language Models helfen.“
Die Sprache der Gene
Large Language Models wie GPT haben innerhalb kurzer Zeit unser Verständnis von Sprache verändert. Ausschließlich mit Text trainiert, entwickelten die Sprachmodelle die Fähigkeit, die Sprache in vielen Kontexten zu nutzen. „DNA ist der Code des Lebens. Warum sollte man sie nicht wie eine Sprache behandeln?“, fragt Poetsch. Ihr Team trainierte ein Large Language Model auf einem Referenz-Humangenom. Das resultierende Werkzeug namens Grover (als Akronym für „Genome Rules Obtained via Extracted Representations“), kann verwendet werden, um biologische Bedeutung aus der DNA zu extrahieren.
„Grover hat die Regeln der DNA gelernt. In Bezug auf Sprache sprechen wir über Grammatik, Syntax und Semantik. Für die DNA bedeutet dies, die Regeln der Sequenzen zu lernen, die Reihenfolge der Nukleotide und Sequenzen sowie deren Bedeutung. Ähnlich wie GPT-Modelle menschliche Sprachen lernen, hat Grover im Grunde gelernt, ‚DNA zu sprechen‘“, erklärt Dr. Melissa Sanabria, die Forscherin hinter dem Projekt.
Biologische Funktionen auslesen
Das Team zeigte, dass besonderes Sprachmodell nicht nur die folgenden DNA-Sequenzen präzise vorhersagen kann, sondern auch verwendet werden kann, um Informationen biologischer Bedeutung aus Kontext zu extrahieren. So kann man z. B. den Start von Genen identifizieren oder Proteinbindungsstellen auf der DNA. Das Modell lernt auch Prozesse, die allgemein als „epigenetisch“ gelten, also solche, die auf der DNA stattfinden und bisher nicht als „kodiert“ betrachtet werden.
„Es ist faszinierend, dass wir durch das Training von Grover allein mit der DNA-Sequenz, ohne zusätzliche funktionelle Daten, tatsächlich Informationen über die biologische Funktion extrahieren können. Für uns zeigt dies, dass die Funktion, einschließlich einiger epigenetischer Informationen, auch in der Sequenz codiert ist“, sagt Sanabria.
Aufbau eines DNA-Wörterbuchs
Um Grover zu trainieren, musste das Team zunächst ein DNA-Wörterbuch erstellen. Zwar besteht DNA aus vier Buchstaben (A, T, G und C) und daraus zusammengesetzten Genen, aber es gibt keine vordefinierten Wörter bzw. Sätze. Für Sequenzen unterschiedlicher Länge ist aber kein Skript vorhanden, welches die Zusammenstellung von Genen oder anderen bedeutungsvollen Sequenzen vorgibt. Die Forscher verwendeten daher einen Trick aus Kompressionsalgorithmen. „Dieser Schritt ist entscheidend und unterscheidet unser DNA-Sprachmodell von früheren Versuchen“, sagt Forschungsleiterin Poetsch.
„Wir haben das gesamte Genom analysiert und nach Buchstabenkombinationen gesucht, die am häufigsten vorkommen. Wir begannen mit zwei Buchstaben und durchsuchten die DNA immer wieder, um sie zu den häufigsten mehrbuchstabigen Kombinationen aufzubauen. Auf diese Weise haben wir in etwa 600 Zyklen die DNA in ‚Wörter‘ fragmentiert, die es Grover ermöglichen, die nächste Sequenz am besten vorherzusagen“, erklärt Sanabria.
KI in der Genomik kann die personalisierte Medizin voranbringen
Das fertige Sprachmodell verspricht laut den Wissenschaftlern, die verschiedenen Ebenen des genetischen Codes freizuschalten. DNA enthält wichtige Informationen darüber, was uns als Mensch ausmacht, etwa individuelle Krankheitsanfälligkeiten und wie einzelne Personen auf eine medizinische Behandlung reagieren.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
„Wir glauben, dass das Verständnis der Regeln der DNA durch ein Sprachmodell uns helfen wird, die Tiefen der biologischen Bedeutung aufzudecken, die in der DNA verborgen ist. Das sollte sowohl die Genomik als auch die personalisierte Medizin voranbringen“, sagt Poetsch.