Big Data und KI für die moderne Medizin Zellen stören für die Wissenschaft
Die molekulare Zellbiologie zielt darauf ab, Zellen und ihre Reaktion auf externe Signale zu verstehen. Einzelzellgenomik ermöglicht es Forschern heutzutage, den inneren Zustand einer Zelle in noch nie dagewesenem Detail auszulesen. In dem vom ERC geförderten Projekt „DeepCell“ wird Fabian Theis Ansätze des maschinellen Lernens für die Einzelzellgenomik entwickeln, um das Verhalten einer Zelle bei externen Störungen – wie der Gabe von Medikamenten – systematisch zu modellieren.

Wie treffen Zellen Entscheidungen? Welche Schritte sind notwendig, um aus einer einzelnen befruchteten Eizelle einen vollständigen Organismus zu bilden? Und wie können wir Frühwarnzeichen von Krankheiten erkennen und das Gewebe mithilfe von optimalen Medikamenten wieder in einen gesunden Zustand bringen?
Big Data in der Zellbiologie – grundlegende Zellmechanismen verstehen
Ein detailliertes Verständnis der Grundlagen der Zellmechanismen ist von elementarer Bedeutung für die biomedizinische Forschung, moderne Diagnostik und personalisierte Therapien. In den letzten zwei Jahrzehnten haben sich für Forscher noch nie dagewesene Möglichkeiten eröffnet, um einzelne Zellen bis ins Detail zu untersuchen. Wo früher mit Bulk-Analysen und Mittelwerten gearbeitet wurde, können heute einzelne Zellen analysiert werden, was zu mehr mechanistischer Präzision führt.
Seit ihrer Entdeckung im 17. Jahrhundert braucht es Technologien, um Zellen zu sehen und zu erforschen – v. a. natürlich das Licht-Mikroskop. Die Entwicklung neuer Technologien zur Erforschung von Zellen nahm in den letzten drei Jahrzehnten stark an Fahrt auf.
Das „Human Genome Project“ ist eine der größten internationalen wissenschaftlichen Initiativen und machte die Genomik zum zentralen Treiber molekularbiologischer Daten. Es ermöglichte die Entwicklung von Hochdurchsatztechnologien, die die Sequenzierung von Genomen in großem Maßstab möglich machte. Dies erlaubte die Entdeckung neuer Gene und Krankheitsmarker.
Im Laufe der letzten Jahrzehnte wurden die Kosten für die Sequenzierung des gesamten Genoms von anfänglich 100 Millionen Dollar auf wenige Hundert Dollar reduziert. Durch die Kombination dieses Sprungs in der Datenproduktion mit den jüngsten Fortschritten in der Mikrofluidik ist es nun möglich, nicht nur DNA – die in allen Zellen eines Körpers nahezu identisch ist – sondern auch messenger-RNA in einzelnen Zellen zu quantifizieren. Gewissermaßen kann man also schauen, was eine Zelle gerade so „macht“. Dadurch lässt sich der zelluläre Zustand auf Einzelzellebene mit beispiellosem Durchsatz und ebensolcher Auflösung messen, was eine der dynamischsten Quellen für Big Data in der Molekularbiologie darstellt. Die dreifache Auszeichnung „Nature Method of the Year“ (2013, 2019 und 2020 in verschiedenen Erweiterungen) zeigt die enorme Relevanz dieser Technologien für die biomedizinische Forschung. Die Einzelzell-Genomik dient als Basis für hoch ambitionierte Initiativen wie dem Human-Cell-Atlas-Projekt, das darauf abzielt, die zelluläre Heterogenität in allen menschlichen Geweben zu quantifizieren, und als spiritueller Nachfolger des Human-Genom-Projekts dazu bestimmt ist, eine Schlüsselressource für viele zukünftige biomedizinische Studien zu werden.
Die Analyse und Interpretation solcher großen Datenmengen sind von entscheidender Bedeutung, stellen jedoch ein Hindernis dar, um das volle Potenzial der in den Datensätzen verborgenen Erkenntnisse auszuschöpfen.
Künstliche Intelligenz für die Dateninterpretation und Translation
Für die Analyse der großen Einzelzell-Transkriptom-Daten, die gegenwärtig in Studien wie dem Human Cell Atlas (HCA) und anderen anfallen, sind Methoden der künstlichen Intelligenz unverzichtbar. Leibniz-Preisträger Fabian Theis und sein Team vom Helmholtz Munich begegnen diesen Herausforderungen durch die Entwicklung von Methoden zur Analyse, Visualisierung und Modellierung von Zellheterogenitäten und zum Erstellen von Zellatlanten. Eines ihrer wesentlichen Ziele ist es, die Methoden großen Nutzergruppen zugänglich zu machen. Das Analyse Framework Scanpy hat beispielsweise in der wissenschaftlichen Gemeinschaft breite Anwendung gefunden und ist zu einem der Haupt-Software-Tools im Feld geworden.
Begonnen hat Theis mit Beiträgen zur systematischen Charakterisierung zellulärer Prozesse auf molekularer Ebene. Die Netzwerkanalyse als Schlüsselelement der effizienten Datenintegration spielte dabei eine herausragende Rolle. Parallel zum Netzwerkansatz begannen die Forscher an der Machine-Learning-basierten Erweiterung quantitativer, dynamischer Modelle zu arbeiten (ERC Starting Grant LatentCauses). Der Kernbereich der Anwendung war die Stammzellbiologie und -therapie, insbesondere die Frage, wie eine Zelle Entwicklungsentscheidungen trifft. Mithilfe von neuronalen Netzen und Deep Learning war es z. B. möglich, vorherzusagen, zu welchem Zeitpunkt eine Blutzelle in einer ganzen Genealogie von Zellen sich entscheidet, ob sie ein Erythrozyt oder ein Lymphozyt wird. Theis und sein Team entwickelten Werkzeuge zur Verarbeitung und Analyse von Einzelzell-Daten aus sowohl zeitaufgelöster Mikroskopie als auch Einzelzell-Genomik.
In den letzten Jahren haben die Forscher diese Ansätze durch die Anwendung des unüberwachten machinellen Lernens, dem so genannten Representation Learning, auf große Genexpressions-Zell-Räume erweitert und Methoden zur Vorhersage und Visualisierung von Linien und Verzweigungstrajektorien entwickelt. Diese Methoden trugen erheblich zur Popularität von Machine Learning in der Einzelzellbiologie bei. Die Regulation von Genen in Zellen beschränkt die potenziell beliebige Kombination von Genexpressionen in einer Zelle. Daher liegen alle möglichen Zellzustände in dem hochdimensionalen Genexpressions„raum“ auf einer viel kleineren, nichtlinearen Fläche, auch Subraum genannt. Beispielsweise werden Gruppen von ähnlichen Datenpunkten in diesem Subraum typischerweise als Zelltypen beschrieben und Wege dazwischen als Entwicklungstrajektorien. In jüngster Zeit hat das Forscherteam nun unüberwachte Deep-Learning-Methoden genutzt, um latente Strukturen zu beschreiben und damit diesen Subraum zu lernen. Beispielsweise komprimiert der so genannte Deep Count Autoencoder [2] eine große Menge an Genexpressionsprofilen von Zellen: Diese Reduktion von Informationen entfernt unnötige Daten orthogonal zu dem biologisch interessanten, oben beschriebenen Unterraum, und hilft somit beim Entfernen von Rauschen in Einzelzell-Datensätzen. Die Methode ist auch in der Lage, zelluläre Verzweigungsprozesse zu beschreiben und damit bei der Interpolation von Prozessen in der Stammzellendifferenzierung oder Krankheitsentwicklung zu helfen.
Ein neues Forschungsfeld, in dem Theis und sein Team schon erste Akzente gesetzt haben, ist der Einsatz bei der Wirkstoffforschung. Theis erhielt dafür 2022 einen ERC Advanced grant (DeepCell).
DeepCell soll Medikamentenforschung beschleunigen
Um eine Zelle in ihrer Gesamtheit zu verstehen, muss man in der Lage sein, ihre interne Reaktion auf jegliche Störungen vorherzusagen. Bisher war die Modellierung von Einzelzellen auf deskriptive Statistiken solcher Perturbationen beschränkt. Mithilfe von künstlicher Intelligenz soll nun das Verhalten von Zellen bei Störungen systematisch modelliert werden. Dabei konzentrieren sich die Wissenschaftler auf den weitgehend unerforschten Bereich der medikamenteninduzierten Perturbationen mit Multiomics-Single-Cell-Analysen. Durch Auslesen der Multiomics-Antwort vieler Zelltypen auf eine Perturbation kann man so teilweise die Antwort neuer Zelltypen auf diese approximieren [1]. Allgemeiner soll nun ein hinreichend generisches Modell es ermöglichen, mehrfach perturbierte Zellzustände vorherzusagen und optimale Behandlungen für neue Zelltypen zu definieren – auch für noch unbekannte Medikamente.
In einer Pilotstudie wurden bereits Veränderungen der Genexpression eines Zellensembles als Reaktion auf Stimuli vorhergesagt. DeepCell baut auf diesem Ansatz auf und nutzt einen multimodalen Deep-Learning-Ansatz für normale und räumlich aufgelöste Genomik, um ein eingeschränktes, interpretierbares Modell für die Reaktion der zellulären Expression auf verschiedene Störeinflüsse zu erstellen. Die zusätzliche Flexibilität des DeepCell-Modells im Vergleich zu klassischen, systembiologischen Modellen im kleinen Maßstab wird es ermöglichen, die Auswirkungen kombinierter Arzneimittelstimuli zu untersuchen und die genregulatorische Landschaft durch Interpretation des gelernten tiefen Netzwerks zu charakterisieren.
Zellbasierte Wirkstoff-Screens werden auf diese Weise eingesetzt, nicht nur um pharmakologische Studien zu unterstützen, sondern auch um grundlegende Fragen der Genregulation zu beantworten und Behandlungsergebnisse vorherzusagen. Damit wird großes Potenzial geschaffen, um sowohl die Arzneimittelentwicklung zu beschleunigen als auch Grundlagenforschung zu betreiben.
In-silico-Arzneimittelscreens statt Laborexperimente
Mit der zunehmenden Verfügbarkeit von Organ-Atlanten bewegt sich das Einzelzellgenomik-Feld darauf zu, nicht-homöostatische („gestörte“) Systeme systematischer zu untersuchen. Das werden ganze Atlanten für bestimmte Krankheiten sein. Beispielsweise haben Theis und sein Team in einer großen internationalen Studie im Rahmen des Human Cell Atlas einen integrierten Lungenzellatlas erstellt, der über 40 Studien und mehr als zwei Millionen Zellen zusammenträgt und in ein gemeinsames Modell einfügt. Hierauf lassen sich nun Krankheiten wie Asthma oder Covid19 abbilden, um zelltyp-aufgelöste Veränderungen vom Normalzustand zu beschreiben.
Im Hinblick auf Wirkstoff-Screens entstehen aber auch allgemeinere Werkzeuge, um experimentell nicht nur einzelne Verbindungen sondern auch Kombinationen zu screenen. Ähnlich entwickeln sich räumliche Omics-Techniken. Die Nutzung der räumlichen Auflösung ist jedoch noch unterentwickelt, obwohl bekannt ist, dass die zelluläre Antwort durch den lokalen Kontext, z. B. im Darm, beeinflusst wird. Im Single-Cell-Feld haben die Forscher ursprünglich an der Modellierung der zellulären Antwort aus der fluoreszierenden Mikroskopie gearbeitet und Deep-Learning-Methoden entwickelt, um Zell-Fate-Entscheidungen aus Bildern zu prognostizieren. Die Verallgemeinerung dieser und ähnlicher Werkzeuge für multimodale räumliche Omics steht noch aus. Um die zellulären Entscheidungs- und Kommunikationsprozesse umfassend zu verstehen, werden Graph-basierte Autoencoder eingesetzt, wie kürzlich demonstriert [3]. Während gezeigt wurde, dass die Einzelzellauflösung in vielen Geweben differentielle Zustände viel klarer als Bulk-Methoden auflösen kann, zeigten erste Assays für groß angelegte Arzneimittelpertubationen Veränderungen, die im Bulk nicht erkennbar waren. Kürzlich haben Theis und sein Team in einer großen Kollaboration am Helmholtz Munich gezeigt, dass Auswirkungen von Wirkstoffkombinationen für eine GLP-1 / Östrogen-Kombination modelliert werden können, um β-Zellen in einem diabetischen Mausmodell zu redifferenzieren [4].
Zusammenfassend ermöglicht DeepCell also eine Perspektive hin zu in silico Arzneimittel-Screenings. Es verwendet neuronale Netze, um Zellzustände zu analysieren und deren Antwort auf Perturbationen zu beschreiben. Das birgt zum einen das Potenzial, Arzneimittel schneller zu entdecken und zum anderen trägt es dazu bei, die Anzahl der Experimente, die im Labor durchgeführt werden müssen, zu reduzieren. Letztendlich soll DeepCell dazu beitragen, wirksamere und sicherere Medikamente schneller zu entwickeln und auf den Markt zu bringen.
Literatur
[1]: Lotfollahi, M., Wolf, F.A., Theis, F.J.: scGen predicts single-cell perturbation responses. Nature Methods 16, 715-721 (2019); DOI: 10.1038/s41592-019-0494-8
[2]: Eraslan, G., Simon, L., Mircea, M., Müller, N.S., Theis, F.J.: Single-cell RNA-seq denoising using a deep count autoencoder. Nature Commun. 10:390 (2019); DOI: 10.1038/s41467-018-07931-2
[3]: Fischer, D.S., Schaar, A.C. & Theis, F.J. (2022) Modeling intercellular communication in tissues using spatial graphs of cells. Nature Biotechnology; DOI: 10.1038/s41587-022-01467-z
[4]: Sachs, S., Bastidas-Ponce, A., Tritschler, S., Bakhti, M., Böttcher, A., Sánchez-Garrido. M.A., Tarquis-Medina, M. , Kleinert, M. , Fischer, K., Jall, S., Harger, A. , Bader, E., Roscioni, S., Ussar, S., Feuchtinger, A., Yesildag, B., Neelakandhan, A., Jensen, B.C., Cornu Yang, B. , Finan, B., DiMarchi, R., Tschöp, M.H., Theis, F.J.°, Hofmann, S.M°., Müller, T.D.°, Lickert, H.°: Targeted pharmacological therapy restores β-cell function for diabetes remission, Nature Metabolism 2, 192–209 (2020); DOI: 10.1038/s42255-020-0171-3
* Dr. Anna Sacher1 und Prof. Dr. Fabian Theis1,2,3,4 (1 Helmholtz Zentrum München, Computational Health Center, 2 Lehrstuhl für Mathematische Modelle biologischer Systeme, Lehrstuhl für Informatik, Information und Technologie CIT, Technische Universität München TUM, 3 Wissenschaftlicher Geschäftsführer der Helmholtz-Kooperationseinheit Künstliche Intelligenz (Helmholtz.AI), 4 Assoziierte Fakultät im Programm für Zellulargenetik am Wellcome Sanger Institute, Hinxton, UK)
(ID:49322185)