English China

Big Data und KI für die moderne Medizin Zellen stören für die Wissenschaft

Ein Gastbeitrag von Dr. Anna Sacher und Prof. Dr. Fabian Theis* Lesedauer: 9 min

Die molekulare Zellbiologie zielt darauf ab, Zellen und ihre Reaktion auf externe Signale zu verstehen. Einzelzellgenomik ermöglicht es Forschern heutzutage, den inneren Zustand einer Zelle in noch nie dagewesenem Detail auszulesen. In dem vom ERC geförderten Projekt „DeepCell“ wird Fabian Theis Ansätze des maschinellen Lernens für die Einzelzellgenomik entwickeln, um das Verhalten einer Zelle bei externen Störungen – wie der Gabe von Medikamenten – systematisch zu modellieren.

Abb.1: Wie treffen Zellen Entscheidungen? Wie lassen sich Krankheiten früh erkennen? (Symbolbild)
Abb.1: Wie treffen Zellen Entscheidungen? Wie lassen sich Krankheiten früh erkennen? (Symbolbild)
(Bild: © Mother - stock.adobe.com)

Wie treffen Zellen Entscheidungen? Welche Schritte sind notwendig, um aus einer einzelnen befruchteten Eizelle einen vollständigen Organismus zu bilden? Und wie können wir Frühwarnzeichen von Krankheiten erkennen und das Gewebe mithilfe von optimalen Medikamenten wieder in einen gesunden Zustand bringen?

Big Data in der Zellbiologie – grundlegende Zellmechanismen verstehen

Ein detailliertes Verständnis der Grundlagen der Zellmechanismen ist von elementarer Bedeutung für die biomedizinische Forschung, moderne Diagnostik und personalisierte Therapien. In den letzten zwei Jahrzehnten haben sich für Forscher noch nie dagewesene Möglichkeiten eröffnet, um einzelne Zellen bis ins Detail zu untersuchen. Wo früher mit Bulk-Analysen und Mittelwerten gearbeitet wurde, können heute einzelne Zellen analysiert werden, was zu mehr mechanistischer Präzision führt.

Seit ihrer Entdeckung im 17. Jahrhundert braucht es Technologien, um Zellen zu sehen und zu erforschen – v. a. natürlich das Licht-Mikroskop. Die Entwicklung neuer Technologien zur Erforschung von Zellen nahm in den letzten drei Jahrzehnten stark an Fahrt auf.
Das „Human Genome Project“ ist eine der größten internationalen wissenschaftlichen Initiativen und machte die Genomik zum zentralen Treiber molekularbiolo­gischer Daten. Es ermöglichte die Entwicklung von Hochdurchsatztechnologien, die die Sequenzierung von Genomen in großem Maßstab möglich machte. Dies erlaubte die Entdeckung neuer Gene und Krankheitsmarker.

Im Laufe der letzten Jahrzehnte wurden die Kosten für die Sequenzierung des gesamten Genoms von anfänglich 100 Millionen Dollar auf wenige Hundert Dollar reduziert. Durch die Kombination dieses Sprungs in der Datenproduktion mit den jüngsten Fortschritten in der Mikrofluidik ist es nun möglich, nicht nur DNA – die in allen Zellen eines Körpers nahezu identisch ist – sondern auch messenger-RNA in einzelnen Zellen zu quantifizieren. Gewissermaßen kann man also schauen, was eine Zelle gerade so „macht“. Dadurch lässt sich der zelluläre Zustand auf Einzelzellebene mit beispiellosem Durchsatz und ebensolcher Auflösung messen, was eine der dynamischsten Quellen für Big Data in der Molekularbiologie darstellt. Die dreifache Auszeichnung „Nature Method of the Year“ (2013, 2019 und 2020 in verschiedenen Erweiterungen) zeigt die enorme Relevanz dieser Technologien für die biomedizinische Forschung. Die Einzelzell-Genomik dient als Basis für hoch ambitionierte Initiativen wie dem Human-Cell-Atlas-Projekt, das darauf abzielt, die zelluläre Heterogenität in allen menschlichen Geweben zu quantifizieren, und als spiritueller Nachfolger des Human-Genom-Projekts dazu bestimmt ist, eine Schlüsselressource für viele zukünftige biomedizinische Studien zu werden.

Die Analyse und Interpretation solcher großen Datenmengen sind von entscheidender Bedeutung, stellen jedoch ein Hindernis dar, um das volle Potenzial der in den Datensätzen verborgenen Erkenntnisse auszuschöpfen.

Künstliche Intelligenz für die Dateninterpretation und Translation

Für die Analyse der großen Einzelzell-Transkriptom-Daten, die gegenwärtig in Studien wie dem Human Cell Atlas (HCA) und anderen anfallen, sind Methoden der künstlichen Intelligenz unverzichtbar. Leibniz-Preisträger Fabian Theis und sein Team vom Helmholtz Munich begegnen diesen Herausforderungen durch die Entwicklung von Methoden zur Analyse, Visualisierung und Modellierung von Zellheterogenitäten und zum Erstellen von Zellatlanten. Eines ihrer wesentlichen Ziele ist es, die Methoden großen Nutzergruppen zugänglich zu machen. Das Analyse Framework Scanpy hat beispielsweise in der wissenschaftlichen Gemeinschaft breite Anwendung gefunden und ist zu einem der Haupt-Software-Tools im Feld geworden.

Begonnen hat Theis mit Beiträgen zur systematischen Charakterisierung zellulärer Prozesse auf molekularer Ebene. Die Netzwerkanalyse als Schlüsselelement der effizienten Datenintegration spielte dabei eine herausragende Rolle. Parallel zum Netzwerkansatz begannen die Forscher an der Machine-Learning-basierten Erweiterung quantitativer, dynamischer Modelle zu arbeiten (ERC Starting Grant LatentCauses). Der Kernbereich der Anwendung war die Stammzellbiologie und -therapie, insbesondere die Frage, wie eine Zelle Entwicklungs­entscheidungen trifft. Mithilfe von neuronalen Netzen und Deep Learning war es z. B. möglich, vorherzusagen, zu welchem Zeitpunkt eine Blutzelle in einer ganzen Genealogie von Zellen sich entscheidet, ob sie ein Erythrozyt oder ein Lymphozyt wird. Theis und sein Team entwickelten Werkzeuge zur Verarbeitung und Analyse von Einzelzell-Daten aus sowohl zeitaufgelöster Mikroskopie als auch Einzelzell-Genomik.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

In den letzten Jahren haben die Forscher diese Ansätze durch die Anwendung des unüberwachten machinellen Lernens, dem so genannten Representation Learn­ing, auf große Genexpressions-Zell-Räume erweitert und Methoden zur Vorhersage und Visualisierung von Linien und Verzweigungstrajektorien entwickelt. Diese Methoden trugen erheblich zur Popularität von Machine Learning in der Einzelzellbiologie bei. Die Regulation von Genen in Zellen beschränkt die potenziell beliebige Kombination von Genexpressionen in einer Zelle. Daher liegen alle möglichen Zellzustände in dem hochdimensionalen Genexpressions„raum“ auf einer viel kleineren, nichtlinearen Fläche, auch Subraum genannt. Beispielsweise werden Gruppen von ähnlichen Datenpunkten in diesem Subraum typischerweise als Zelltypen beschrieben und Wege dazwischen als Entwicklungstrajektorien. In jüngster Zeit hat das Forscherteam nun unüberwachte Deep-Learn­ing-Methoden genutzt, um latente Strukturen zu beschreiben und damit diesen Subraum zu lernen. Beispielsweise komprimiert der so genannte Deep Count Autoencoder [2] eine große Menge an Genexpressionsprofilen von Zellen: Diese Reduktion von Informationen entfernt unnötige Daten orthogonal zu dem biologisch interessanten, oben beschriebenen Unterraum, und hilft somit beim Entfernen von Rauschen in Einzelzell-Datensätzen. Die Methode ist auch in der Lage, zelluläre Verzweigungsprozesse zu beschreiben und damit bei der Interpolation von Prozessen in der Stammzellendifferenzierung oder Krankheitsentwicklung zu helfen.

ERC gefördertes Projekt „DeepCell“

In seinem vom ERC geförderten Projekt „DeepCell“ wird Fabian Theis Ansätze des maschinellen Lernens für die Einzelzellgenomik entwickeln, um das Verhalten einer Zelle bei externen Störungen systematisch zu modellieren. Dabei konzentriert er sich auf das bislang wenig erforschte Gebiet der medikamenteninduzierten Störungen mit Einzelzellauslesungen. Bei Erfolg könnte DeepCell optimale Vorhersagen des Behandlungserfolgs für neue Zell­typen ermöglichen. Auf diese Weise würde es möglich, In-silico-Arzneimittelscreens durchzuführen und somit die Entwicklung von neuen Medikamenten zu beschleunigen. Auch auf die klinische Praxis würden sich die neugewonnenen Möglichkeiten auswirken.

Ein neues Forschungsfeld, in dem Theis und sein Team schon erste Akzente gesetzt haben, ist der Einsatz bei der Wirkstoffforschung. Theis erhielt dafür 2022 einen ERC Advanced grant (DeepCell).

DeepCell soll Medikamentenforschung beschleunigen

Abb.2: (a) Das Tool scGen [1] prognostiziert die Reaktion auf eine einzelne Stimulation mithilfe der Vektorarithmetik des latenten Raums. Hier sind Kontroll- und stimulierte menschliche Blutzellen dargestellt, wobei die Farben die Zelltypen anzeigen und die ausgegrauten Zellen korrekt vorhergesagt wurden. (b). Das Deepcell-Modell kann die Reaktion einer einzelnen Zelle auf eine Pertubation für viele Medikamente gleichzeitig vorhersagen. Es kann für das In-silico-Arzneimittelscreening und die Anpassung von Wirkstoffen verwendet werden, indem es diese nach der Überlappung der vorhergesagten Population mit der Population mit der gewünschten Behandlungswirkung einstuft.
Abb.2: (a) Das Tool scGen [1] prognostiziert die Reaktion auf eine einzelne Stimulation mithilfe der Vektorarithmetik des latenten Raums. Hier sind Kontroll- und stimulierte menschliche Blutzellen dargestellt, wobei die Farben die Zelltypen anzeigen und die ausgegrauten Zellen korrekt vorhergesagt wurden. (b). Das Deepcell-Modell kann die Reaktion einer einzelnen Zelle auf eine Pertubation für viele Medikamente gleichzeitig vorhersagen. Es kann für das In-silico-Arzneimittelscreening und die Anpassung von Wirkstoffen verwendet werden, indem es diese nach der Überlappung der vorhergesagten Population mit der Population mit der gewünschten Behandlungswirkung einstuft.
(Bild: Prof. Dr. Fabian Theis)

Um eine Zelle in ihrer Gesamtheit zu verstehen, muss man in der Lage sein, ihre interne Reaktion auf jegliche Störungen vorherzusagen. Bisher war die Modellierung von Einzelzellen auf deskriptive Statistiken solcher Perturbationen beschränkt. Mithilfe von künstlicher Intelligenz soll nun das Verhalten von Zellen bei Störungen systematisch modelliert werden. Dabei konzentrieren sich die Wissenschaftler auf den weitgehend un­erforschten Bereich der medikamenteninduzierten Perturbationen mit Multiomics-Single-Cell-Analysen. Durch Auslesen der Multiomics-Antwort vieler Zelltypen auf eine Perturbation kann man so teilweise die Antwort neuer Zelltypen auf diese approximieren [1]. Allgemeiner soll nun ein hinreichend generisches Modell es ermöglichen, mehrfach perturbierte Zellzustände vorherzusagen und optimale Behandlungen für neue Zelltypen zu definieren – auch für noch unbekannte Medikamente.

In einer Pilotstudie wurden bereits Veränderungen der Genexpression eines Zellensembles als Reaktion auf Stimuli vorhergesagt. DeepCell baut auf diesem Ansatz auf und nutzt einen multimodalen Deep-Learning-Ansatz für normale und räumlich aufgelöste Genomik, um ein eingeschränktes, interpretierbares Modell für die Reaktion der zellulären Expression auf verschiedene Störeinflüsse zu erstellen. Die zusätzliche Flexibilität des DeepCell-Modells im Vergleich zu klassischen, systembiologischen Modellen im kleinen Maßstab wird es ermöglichen, die Auswirkungen kombinierter Arznei­mittelstimuli zu untersuchen und die genregulatorische Landschaft durch Interpretation des gelernten tiefen Netzwerks zu charakterisieren.

Zellbasierte Wirkstoff-Screens werden auf diese Weise eingesetzt, nicht nur um pharmakologische Studien zu unterstützen, sondern auch um grundlegende Fragen der Genregulation zu beantworten und Behandlungsergebnisse vorherzusagen. Damit wird großes Potenzial geschaffen, um sowohl die Arzneimittelentwicklung zu beschleunigen als auch Grundlagenforschung zu betreiben.

In-silico-Arzneimittelscreens statt Laborexperimente

Mit der zunehmenden Verfügbarkeit von Organ-Atlanten bewegt sich das Einzelzellgenomik-Feld darauf zu, nicht-homöostatische („gestörte“) Systeme systematischer zu untersuchen. Das werden ganze Atlanten für bestimmte Krankheiten sein. Beispielsweise haben Theis und sein Team in einer großen internationalen Studie im Rahmen des Human Cell Atlas einen integrierten Lungenzellatlas erstellt, der über 40 Studien und mehr als zwei Millionen Zellen zusammenträgt und in ein gemeinsames Modell einfügt. Hierauf lassen sich nun Krankheiten wie Asthma oder Covid19 abbilden, um zelltyp-aufgelöste Veränderungen vom Normalzustand zu beschreiben.

Prof. Dr. Fabian Theis

Fabian Theis nutzt künstliche Intelligenz, um menschliche Zellen zu entschlüsseln. Wie interagieren sie miteinander und was geht auf zellulärer Ebene bei Krankheiten schief? Durch die Einzelzell-Sequenzierung können er und sein Team die Heterogenität von Einzelzellen analysieren und Machine- und Deep Learning zur Vorhersage in der Biologie und Biomedizin einsetzen.

Fabian Theis ist Leiter des Helmholtz Munich Computational Health Center und wissenschaftlicher Direktor von HelmholtzAI. Er ist Lehrstuhlinhaber an der TU München und associate faculty am Wellcome Trust Sanger Institut (Hinxton, UK). Theis gründete das Netzwerk Single Cell Omics Germany (SCOG), koordiniert die Munich School for Data Science (MUDS) und ist Mit-Direktor der ELLIS Munich Unit. Er ist Mitvorsitzender des bayerischen KI-Rates, Mitglied der EMBO und des Board of Directors von Human Cell Atlas, Inc.

Theis ist ein renommierter Experte eines der wichtigsten Bereiche in der Datenwissenschaft: anwendungsorientierte Analyse und Modellierung in der Biomedizin. Seine Arbeit zur Einzelzell-Genomik, für die er AI-basierte Analyse- und Modellierungsansätze entwickelt, hat weltweite Anerkennung und Verbreitung gefunden. Fabian Theis' außergewöhnliche Leistungen wurden unter anderem mit dem Wissenschaftspreis der Stadt Hamburg (2021), einem ERC Advanced Grant (2022) und dem Gottfried Wilhelm Leibniz-Preis (2023) ausgezeichnet.

Im Hinblick auf Wirkstoff-Screens entstehen aber auch allgemeinere Werkzeuge, um experimentell nicht nur einzelne Verbindungen sondern auch Kombinationen zu screenen. Ähnlich entwickeln sich räumliche Omics-Techniken. Die Nutzung der räumlichen Auflösung ist jedoch noch unterentwickelt, obwohl bekannt ist, dass die zelluläre Antwort durch den lokalen Kontext, z. B. im Darm, beeinflusst wird. Im Single-Cell-Feld haben die Forscher ursprünglich an der Modellierung der zellulären Antwort aus der fluoreszierenden Mikroskopie gearbeitet und Deep-Learning-Methoden entwickelt, um Zell-Fate-Entscheidungen aus Bildern zu prognostizieren. Die Verallgemeinerung dieser und ähnlicher Werkzeuge für multimodale räumliche Omics steht noch aus. Um die zellulären Entscheidungs- und Kommunikationsprozesse umfassend zu verstehen, werden Graph-basierte Autoencoder eingesetzt, wie kürzlich demonstriert [3]. Während gezeigt wurde, dass die Einzelzellauflösung in vielen Geweben differentielle Zustände viel klarer als Bulk-Methoden auflösen kann, zeigten erste Assays für groß angelegte Arzneimittelpertubationen Veränderungen, die im Bulk nicht erkennbar waren. Kürzlich haben Theis und sein Team in einer großen Kollaboration am Helmholtz Munich gezeigt, dass Auswirkungen von Wirkstoffkombinationen für eine GLP-1 / Östrogen-Kombination modelliert werden können, um β-Zellen in einem diabetischen Mausmodell zu redifferenzieren [4].

Zusammenfassend ermöglicht DeepCell also eine Perspektive hin zu in silico Arzneimittel-Screenings. Es verwendet neuronale Netze, um Zellzustände zu analysieren und deren Antwort auf Perturbationen zu beschreiben. Das birgt zum einen das Potenzial, Arzneimittel schneller zu entdecken und zum anderen trägt es dazu bei, die Anzahl der Experimente, die im Labor durchgeführt werden müssen, zu reduzieren. Letztendlich soll DeepCell dazu beitragen, wirksamere und sicherere Medikamente schneller zu entwickeln und auf den Markt zu bringen.

Literatur

[1]: Lotfollahi, M., Wolf, F.A., Theis, F.J.: scGen predicts single-cell perturbation responses. Nature Methods 16, 715-721 (2019); DOI: 10.1038/s41592-019-0494-8

[2]: Eraslan, G., Simon, L., Mircea, M., Müller, N.S., Theis, F.J.: Single-cell RNA-seq denoising using a deep count autoencoder. Nature Commun. 10:390 (2019); DOI: 10.1038/s41467-018-07931-2

[3]: Fischer, D.S., Schaar, A.C. & Theis, F.J. (2022) Modeling intercellular communication in tissues using spatial graphs of cells. Nature Biotechnology; DOI: 10.1038/s41587-022-01467-z

[4]: Sachs, S., Bastidas-Ponce, A., Tritschler, S., Bakhti, M., Böttcher, A., Sánchez-Garrido. M.A., Tarquis-Medina, M. , Kleinert, M. , Fischer, K., Jall, S., Harger, A. , Bader, E., Roscioni, S., Ussar, S., Feuchtinger, A., Yesildag, B., Neelakandhan, A., Jensen, B.C., Cornu Yang, B. , Finan, B., DiMarchi, R., Tschöp, M.H., Theis, F.J.°, Hofmann, S.M°., Müller, T.D.°, Lickert, H.°: Targeted pharmacological therapy restores β-cell function for diabetes remission, Nature Metabolism 2, 192–209 (2020); DOI: 10.1038/s42255-020-0171-3

* Dr. Anna Sacher1 und Prof. Dr. Fabian Theis1,2,3,4 (1 Helmholtz Zentrum München, Computational Health Center, 2 Lehrstuhl für Mathematische Modelle biologischer Systeme, Lehrstuhl für Informatik, Information und Technologie CIT, Technische Universität München TUM, 3 Wissenschaftlicher Geschäftsführer der Helmholtz-Kooperationseinheit Künstliche Intelligenz (Helmholtz.AI), 4 Assoziierte Fakultät im Programm für Zellulargenetik am Wellcome Sanger Institute, Hinxton, UK)

(ID:49322185)