English China
Suchen

Genexpression Zelluläre Genexpression statistisch unterstützt analysieren

Autor / Redakteur: Christiane Fuchs* / Dr. Ilka Ottleben

Der Schlüssel zur Funktionsweise unserer Zellen liegt in ihrer Genexpression. Experimentelle Einzelzellanalysen sind aber aufwändig und teuer. Mit Tricks aus der Statistik geht’s schnell und zuverlässig. Mögliche Anwendungen liegen z.B. in der Krebsforschung.

Firmen zum Thema

Abb. 1: Herangehensweisen für die Schätzung von Zellheterogenitäten: A) Analyse von Einzelzellmessungen. Solche Daten sind teuer und unterliegen großem Messfehler. Daher sind sie hier nicht sinnvoll. B) Vorsortierung der Zellen nach Zelltypen und anschließende Microarray-Messung für eine Menge gleicher Zellen. Im hier betrachteten Fall ist die Vorsortierung wegen der identischen Morphologie nicht möglich. C) Stochastic Profiling: Für eine zufällig ausgewählte Menge von Zellen wird die Gesamtexpression gemessen und diese per Maximum Likelihood analysiert.
Abb. 1: Herangehensweisen für die Schätzung von Zellheterogenitäten: A) Analyse von Einzelzellmessungen. Solche Daten sind teuer und unterliegen großem Messfehler. Daher sind sie hier nicht sinnvoll. B) Vorsortierung der Zellen nach Zelltypen und anschließende Microarray-Messung für eine Menge gleicher Zellen. Im hier betrachteten Fall ist die Vorsortierung wegen der identischen Morphologie nicht möglich. C) Stochastic Profiling: Für eine zufällig ausgewählte Menge von Zellen wird die Gesamtexpression gemessen und diese per Maximum Likelihood analysiert.
(Bild: Helmholtz Zentrum München)

Jeder Mensch ist mit einem individuellen, einmaligen Satz von Genen ausgestattet, und jede Zelle im menschlichen Körper enthält genau diesen gleichen Satz von Genen. Dennoch gibt es eine große Vielfalt an Zellen, z. B. Nervenzellen, Hautzellen und Muskelzellen. Die Heterogenität der Zellen rührt daher, dass in verschiedenen Gewebearten verschiedene Gene aktiv sind. Aktive Gene werden in RNA umgeschrieben (Transkription) und dann in Proteine übersetzt (Translation). Man sagt, diese Gene werden exprimiert. Solche Genexpression kann gemessen werden. Microarrays liefern beispielsweise die relative Menge an messenger RNA (mRNA).

Hautzellen und Muskelzellen haben also unterschiedliche Expressionsmuster. Sie können allerdings auch allein aufgrund ihrer Morphologie, also ihres Aussehens, unterschieden werden. Das gleiche gilt für gesunde Zellen und Krebszellen der gleichen Gewebeart: Krebszellen sind oft größer und haben einen größeren Zellkern als ihre gesunden Nachbarn. Sie unterscheiden sich außerdem in ihrem Genexpressionsmuster, und genau das ist auch der Grund dafür, warum eine gesunde Zelle zur Krebszelle wurde.

Bildergalerie

Eine kranke Zelle verändert aber nicht schlagartig ihr Aussehen. Zunächst ändert sich die Aktivität der Gene, und erst in der Folge kommt es zum veränderten Erscheinungsbild. In diesem Zwischenstadium unterscheiden sich gesunde und kranke Zellen in ihrer Genexpression, unter dem Mikroskop sehen sie aber identisch aus. Für die Krebsforschung ist es wichtig, die Eigenschaften der zwei Zellarten zu diesem Zeitpunkt zu kennen.

Die Problemstellung lautet also, für eine Menge von gleich aussehenden, aber heterogenen Zellen zwei Zelltypen anhand ihrer Genexpression zu identifizieren. Die zwei Zelltypen unterscheiden sich darin, dass ein bestimmtes Gen in einem der Typen hochreguliert ist, d.h. verstärkt transkribiert wird, und im anderen Zelltyp nicht.

Die Mischung macht’s

Die möglichen Herangehensweisen für diese Fragestellung sind in Abbildung 1 beschrieben. Der Ansatz, der hier vorgestellt wird, nennt sich Stochastic Profiling: Aus jeder Gewebeprobe wird zufällig eine kleine Anzahl von Zellen entnommen und hiervon die Summe der Einzelexpressionen gemessen (s. Abb. 1). Das hat den Vorteil, dass mehr genetisches Startmaterial vorhanden ist, welches zu einem geringeren Messfehler führt. Andererseits sind die Messungen vermischt: Jeder Wert beruht auf einer zufälligen Zusammensetzung von Zellen der zwei Typen. Das Ziel ist es, aus den aggregierten Proben dennoch Informationen zu den einzelnen Zelltypen zu gewinnen.

Um die Daten statistisch zu analysieren, benötigt man ein Wahrscheinlichkeitsmodell für die vorliegenden Messungen. Dies sieht so aus: Mit Wahrscheinlichkeit p ist eine zufällig ausgewählte Zelle vom Typ I, ansonsten vom Typ II. In beiden Fällen ist die Genexpression X dieser Zelle lognormalverteilt, d.h. der natürliche Logarithmus der Genexpression, log(X), ist normalverteilt. Dies ist eine übliche Annahme für Expressionsdaten. Allerdings besitzen die beiden Lognormalverteilungen unterschiedliche Parameter: Für Typ I hat log(X) den Mittelwert μ1 und die Standardabweichung σ1, ansonsten Mittelwert μ2 und Standardabweichung σ2 (s. Abb. 2). Die Parameter p, μ1, μ2, σ1 und σ2 sind unbekannt und sollen aus den Daten geschätzt werden.

Statistik hilft bei der Zellanalyse

Hierzu kann die Maximum-Likelihood-Methode verwendet werden. Sie ist ein gängiges statistisches Verfahren, um für einen gegebenen Datensatz den plausibelsten Satz von Parameterwerten zu ermitteln. Dazu leitet man für das Wahrscheinlichkeitsmodell die so genannte Likelihoodfunktion her und bestimmt deren Maximum. Hierbei besteht die Schwierigkeit, dass die Genexpression X nicht für jede einzelne Zelle gemessen wird, sondern man nur die Summe X1+...+Xn von n Zellen kennt. Das gibt der Likelihoodfunktion – abhängig von den Daten – möglicherweise eine irreguläre Gestalt mit vielen lokalen Minima und Maxima. Aber auch das lässt sich mit fortgeschrittenen numerischen Verfahren meistern.

Um zu untersuchen, wie gut die Schätzmethode in der Praxis im Idealfall funktioniert, kann man sie auf künstlichen Daten testen. Das bedeutet, dass man sich vom Computer Zufallszahlen generieren lässt, die dem angenommenen statistischen Modell entsprechen. Der Zufallsgenerator wird mit den Parametern gefüttert, die eigentlich unbekannt sind: relative Häufigkeit p, Mittelwerte μ1 und μ2 und Standardabweichungen σ1 und σ2. Anschließend schätzt man genau diese Parameter wieder aus den künstlichen Daten und überprüft, ob die wahren und die geschätzten Werte gut übereinstimmen. Das Ergebnis hier ist: Wenn aus mindestens 50 Gewebeproben je zehn Zellen entnommen werden, dann reichen die Daten aus, um zuverlässige Schätzungen zu erhalten. Liegen weniger als 50 Gewebeproben vor, sollten mehrere Gene gleichzeitig analysiert werden. Dies erhöht zwar die rechnerische Komplexität des Schätzverfahrens, aber auch die Datenmenge.

Neue Erkenntnisse

Das Schätzverfahren soll nun verwendet werden, um Proben aus menschlichem Brustgewebe zu analysieren. Die Bioingenieure Dr. Kevin Janes und Sameer Bajikar von der Universität Virginia lieferten entsprechende Messungen aus 16 Gewebeproben, die jeweils aus Mischungen von zehn Zellen bestehen. Unter den über tausend gemessenen Genen stechen drei Gruppen mit jeweils 10 bis 23 Genen heraus, die ähnliche Expressionsmuster zeigen und deshalb jeweils gemeinsam analysiert werden. Die statistische Methode schätzt, dass in den drei Gruppen in 25 %, 10 % bzw. 2,3 % der Zellen die Gene hochreguliert sind (s. Abb. 3). Sie liefert außerdem Schätzungen für die Mittelwerte und Standardabweichungen.

Die dritte Gruppe sticht heraus, da in nur 2,3 % der Zellen die betrachteten Gene hochreguliert sind. Des Weiteren ist der Mittelwert des niedrig-exprimierten Zelltyps so niedrig, dass die Gene hier inaktiv oder nur sehr schwach aktiv sind. Diese Gruppe enthält mehrere Gene, die mit Brustkrebs in Verbindung gebracht werden: Das Gen BRIP1 ist mit einem erhöhten Risiko für Brustkrebs assoziiert, IRF2 wird häufig in Brustkrebszellen exprimiert, und HIVEP2 ist bei Brustkrebs häufig herunterreguliert oder mutiert. Das interessanteste Gen in dieser Gruppe ist jedoch PIK3CD. Im Rahmen der Experimente für das hier vorgestellte Projekt fielen dazu einige Ungereimtheiten auf: Eigentlich wird PIK3CD für gesundes Zellwachstum verantwortlich gemacht. Wird es aber künstlich gehemmt, wachsen die Zellen unnatürlich stark und nehmen eine abnormale Form an. Auch verhält sich PIK3CD anders als seine Verwandten PIK3CA und PIK3CB und folgt deshalb scheinbar einem eigenen regulatorischen Mechanismus. Dies wirft neue biologische Fragestellungen auf, die im Rahmen von Folgestudien behandelt werden.

FISH-Kontrolle

Für die bisherigen Schlussfolgerungen muss noch gezeigt werden, dass die statistische Methode nicht nur für künstliche, perfekte Daten funktioniert, sondern auch für die realen Messungen. Die Schätzung könnte z. B. schiefgehen, wenn die Modellannahmen nicht zutreffen und aus irgendwelchen Gründen keine Lognormalverteilung vorliegt. Der Nachweis geschieht folgendermaßen: Mit Kontrollexperimenten kann die relative Häufigkeit p der beiden Zelltypen in einer Gewebeprobe bestimmt und mit den rechnerischen Ergebnissen verglichen werden. Hierzu wird die Fluoreszenz-in-situ-Hybridisierung (FISH) verwendet, die es erlaubt, Zellen zu identifizieren, in denen besonders viel mRNA eines bestimmten Gens vorliegt, in denen das entsprechende Gen also hochreguliert ist (s. Abb. 4). FISH ist sehr aufwändig und teuer. Daher bietet es keine Alternative zum statistischen Verfahren. Es kann in begrenztem Umfang durchgeführt werden und dient dann zur Überprüfung der rechnerischen Ergebnisse. Wie Abbildung 3 zeigt, ist die Übereinstimmung bei den vorliegenden Daten groß. Aus der Verifizierung der relativen Häufigkeit p ist zu schließen, dass die statistische Methode auch die weiteren Parameter μ1, μ2, σ1 und σ2 verlässlich schätzt.

Mehr ist mehr

Es bleibt die Frage, ob und inwiefern die Analyse von gemischten Messungen der Einzelzellanalyse überlegen ist, wenn man von den technischen Schwierigkeiten der Einzelzellmessungen absieht. Einzelzelldaten haben den Vorteil, dass sie unmittelbare Infos zu einer einzigen Zelle liefern, während die Infos in den aggregierten Messungen vermischt sind. Andererseits enthalten die aggregierten Messungen die Information zu viel mehr Zellen, und wie fast immer in der Statistik ist es von Vorteil, viel zu erfassen. Angenommen, einer der beiden Zelltypen kommt nur in 5 % aller Zellen vor, und es liegen 16 Messungen vor. Im Fall der Einzelzelldaten würde man dann 16 Zellen betrachten, von denen voraussichtlich zwischen 0 und 2 Zellen von diesem Zelltyp wären (durchschnittlich 0,8 Zellen). Hieraus lässt sich nicht viel ableiten. Im Fall der aggregierten Messungen dagegen würde man 160 Zellen analysieren, davon wahrscheinlich zwischen 4 und 13 (durchschnittlich 8) vom besagten Zelltyp.

Um den Unterschied genauer zu quantifizieren, werden noch einmal künstliche Daten zu Hilfe genommen: Man simuliert 100 Datensätze, in denen jede Messung auf einer einzelnen Zelle beruht, und 100 Datensätze, bei denen jeweils zehn Zellen aggregiert werden. Für jeden Datensatz werden alle Parameter geschätzt und die durchschnittliche Abweichung von den wahren Werten betrachtet. Die aggregierten Daten sind dabei den Einzelzelldaten weit überlegen. Der Unterschied ist umso deutlicher, je geringer der Anteil der kleineren Population ist. Das hier beschriebene Stochastic Profiling mit anschließender Maximum-Likelihood-Schätzung liefert also mit weniger Aufwand verlässlichere Ergebnisse.

Literatur

[1] Bajikar*, Fuchs*, Roller, Theis°, Janes°: Parameterizing cell-to-cell regulatory heterogeneities via stochastic transcriptional profiles. PNAS 111, E626-E635 (2014) *geteilte Erstautorschaft, °geteilte Letztautorschaft

[2] Janes, Wang, Holmberg, Cabral, Brugge: Identifying single-cell molecular programs by stochastic profiling. Nat Methods 7(4), 311-317 (2010)

* Dr. C. Fuchs: Institute of Computational Biology, Helmholtz Zentrum München, 85764 Neuherberg,

(ID:42648987)