English China

Genomik Die Sprache der Gene verstehen – KI-Modell soll DNA übersetzen

Quelle: Pressemitteilung TU Dresden 3 min Lesedauer

Anbieter zum Thema

Gene sequenzieren ist längst eine Standardoperation in biologischen Laboren. Doch die genetischen Codes in ihrer biologischen Funktion zu interpretieren, stellt nach wie vor eine Herausforderung dar. Hierbei könnte künftig ein neues KI-Modell helfen, welches die Sprache der DNA übersetzen soll.

Künstlerische Darstellung des Large Language Models, das auf DNA-Sequenzen trainiert wurde. (Bild:  Dall-E / von Magdalena Gonciarz / KI-generiert)
Künstlerische Darstellung des Large Language Models, das auf DNA-Sequenzen trainiert wurde.
(Bild: Dall-E / von Magdalena Gonciarz / KI-generiert)

Seit der Entdeckung der Doppelhelix suchen Forschende nach dem in der DNA verschlüsselten Wissen. 70 Jahre später ist klar, dass die in der DNA verborgenen Informationen vielschichtig sind. Nur ein bis zwei Prozent des Genoms bestehen tatsächlich aus Genen, also jenen Sequenzen, die für Proteine codieren. Und was ist mit dem Rest?

„DNA hat viele Funktionen, die über die Proteincodierung hinausgehen“, sagt Dr. Anna Poetsch. Einige Sequenzen regulieren Gene, andere dienen strukturellen Zwecken, die meisten Sequenzen erfüllen mehrere Funktionen gleichzeitig, wie die Forschungsgruppenleiterin am Biotechnologischen Zentrum (Biotec) der Technischen Universität Dresden erklärt. „Derzeit verstehen wir die Bedeutung des größten Teils der DNA nicht. Für die Bereiche außerhalb von Genen scheinen wir erst an der Oberfläche gekratzt zu haben. Hier können KI und Large Language Models helfen.“

Die Sprache der Gene

Large Language Models wie GPT haben innerhalb kurzer Zeit unser Verständnis von Sprache verändert. Ausschließlich mit Text trainiert, entwickelten die Sprachmodelle die Fähigkeit, die Sprache in vielen Kontexten zu nutzen. „DNA ist der Code des Lebens. Warum sollte man sie nicht wie eine Sprache behandeln?“, fragt Poetsch. Ihr Team trainierte ein Large Language Model auf einem Referenz-Humangenom. Das resultierende Werkzeug namens Grover (als Akronym für „Genome Rules Obtained via Extracted Representations“), kann verwendet werden, um biologische Bedeutung aus der DNA zu extrahieren.

„Grover hat die Regeln der DNA gelernt. In Bezug auf Sprache sprechen wir über Grammatik, Syntax und Semantik. Für die DNA bedeutet dies, die Regeln der Sequenzen zu lernen, die Reihenfolge der Nukleotide und Sequenzen sowie deren Bedeutung. Ähnlich wie GPT-Modelle menschliche Sprachen lernen, hat Grover im Grunde gelernt, ‚DNA zu sprechen‘“, erklärt Dr. Melissa Sanabria, die Forscherin hinter dem Projekt.

Biologische Funktionen auslesen

Das Team zeigte, dass besonderes Sprachmodell nicht nur die folgenden DNA-Sequenzen präzise vorhersagen kann, sondern auch verwendet werden kann, um Informationen biologischer Bedeutung aus Kontext zu extrahieren. So kann man z. B. den Start von Genen identifizieren oder Proteinbindungsstellen auf der DNA. Das Modell lernt auch Prozesse, die allgemein als „epigenetisch“ gelten, also solche, die auf der DNA stattfinden und bisher nicht als „kodiert“ betrachtet werden.

„Es ist faszinierend, dass wir durch das Training von Grover allein mit der DNA-Sequenz, ohne zusätzliche funktionelle Daten, tatsächlich Informationen über die biologische Funktion extrahieren können. Für uns zeigt dies, dass die Funktion, einschließlich einiger epigenetischer Informationen, auch in der Sequenz codiert ist“, sagt Sanabria.

Aufbau eines DNA-Wörterbuchs

Um Grover zu trainieren, musste das Team zunächst ein DNA-Wörterbuch erstellen. Zwar besteht DNA aus vier Buchstaben (A, T, G und C) und daraus zusammengesetzten Genen, aber es gibt keine vordefinierten Wörter bzw. Sätze. Für Sequenzen unterschiedlicher Länge ist aber kein Skript vorhanden, welches die Zusammenstellung von Genen oder anderen bedeutungsvollen Sequenzen vorgibt. Die Forscher verwendeten daher einen Trick aus Kompressionsalgorithmen. „Dieser Schritt ist entscheidend und unterscheidet unser DNA-Sprachmodell von früheren Versuchen“, sagt Forschungsleiterin Poetsch.

„Wir haben das gesamte Genom analysiert und nach Buchstabenkombinationen gesucht, die am häufigsten vorkommen. Wir begannen mit zwei Buchstaben und durchsuchten die DNA immer wieder, um sie zu den häufigsten mehrbuchstabigen Kombinationen aufzubauen. Auf diese Weise haben wir in etwa 600 Zyklen die DNA in ‚Wörter‘ fragmentiert, die es Grover ermöglichen, die nächste Sequenz am besten vorherzusagen“, erklärt Sanabria.

KI in der Genomik kann die personalisierte Medizin voranbringen

Das fertige Sprachmodell verspricht laut den Wissenschaftlern, die verschiedenen Ebenen des genetischen Codes freizuschalten. DNA enthält wichtige Informationen darüber, was uns als Mensch ausmacht, etwa individuelle Krankheitsanfälligkeiten und wie einzelne Personen auf eine medizinische Behandlung reagieren.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

„Wir glauben, dass das Verständnis der Regeln der DNA durch ein Sprachmodell uns helfen wird, die Tiefen der biologischen Bedeutung aufzudecken, die in der DNA verborgen ist. Das sollte sowohl die Genomik als auch die personalisierte Medizin voranbringen“, sagt Poetsch.

Originalpublikation: Melissa Sanabria, Jonas Hirsch, Pierre M. Joubert, and Anna R. Poetsch: DNA language model GROVER learns sequence context in the human genome, Nature Machine Intelligence (July 2024); DOI: 10.1038/s42256-024-00872-0

(ID:50121630)