English China
Suchen

Genexpression

Zelluläre Genexpression statistisch unterstützt analysieren

Seite: 2/4

Firmen zum Thema

Statistik hilft bei der Zellanalyse

Hierzu kann die Maximum-Likelihood-Methode verwendet werden. Sie ist ein gängiges statistisches Verfahren, um für einen gegebenen Datensatz den plausibelsten Satz von Parameterwerten zu ermitteln. Dazu leitet man für das Wahrscheinlichkeitsmodell die so genannte Likelihoodfunktion her und bestimmt deren Maximum. Hierbei besteht die Schwierigkeit, dass die Genexpression X nicht für jede einzelne Zelle gemessen wird, sondern man nur die Summe X1+...+Xn von n Zellen kennt. Das gibt der Likelihoodfunktion – abhängig von den Daten – möglicherweise eine irreguläre Gestalt mit vielen lokalen Minima und Maxima. Aber auch das lässt sich mit fortgeschrittenen numerischen Verfahren meistern.

Um zu untersuchen, wie gut die Schätzmethode in der Praxis im Idealfall funktioniert, kann man sie auf künstlichen Daten testen. Das bedeutet, dass man sich vom Computer Zufallszahlen generieren lässt, die dem angenommenen statistischen Modell entsprechen. Der Zufallsgenerator wird mit den Parametern gefüttert, die eigentlich unbekannt sind: relative Häufigkeit p, Mittelwerte μ1 und μ2 und Standardabweichungen σ1 und σ2. Anschließend schätzt man genau diese Parameter wieder aus den künstlichen Daten und überprüft, ob die wahren und die geschätzten Werte gut übereinstimmen. Das Ergebnis hier ist: Wenn aus mindestens 50 Gewebeproben je zehn Zellen entnommen werden, dann reichen die Daten aus, um zuverlässige Schätzungen zu erhalten. Liegen weniger als 50 Gewebeproben vor, sollten mehrere Gene gleichzeitig analysiert werden. Dies erhöht zwar die rechnerische Komplexität des Schätzverfahrens, aber auch die Datenmenge.

Bildergalerie

Neue Erkenntnisse

Das Schätzverfahren soll nun verwendet werden, um Proben aus menschlichem Brustgewebe zu analysieren. Die Bioingenieure Dr. Kevin Janes und Sameer Bajikar von der Universität Virginia lieferten entsprechende Messungen aus 16 Gewebeproben, die jeweils aus Mischungen von zehn Zellen bestehen. Unter den über tausend gemessenen Genen stechen drei Gruppen mit jeweils 10 bis 23 Genen heraus, die ähnliche Expressionsmuster zeigen und deshalb jeweils gemeinsam analysiert werden. Die statistische Methode schätzt, dass in den drei Gruppen in 25 %, 10 % bzw. 2,3 % der Zellen die Gene hochreguliert sind (s. Abb. 3). Sie liefert außerdem Schätzungen für die Mittelwerte und Standardabweichungen.

Die dritte Gruppe sticht heraus, da in nur 2,3 % der Zellen die betrachteten Gene hochreguliert sind. Des Weiteren ist der Mittelwert des niedrig-exprimierten Zelltyps so niedrig, dass die Gene hier inaktiv oder nur sehr schwach aktiv sind. Diese Gruppe enthält mehrere Gene, die mit Brustkrebs in Verbindung gebracht werden: Das Gen BRIP1 ist mit einem erhöhten Risiko für Brustkrebs assoziiert, IRF2 wird häufig in Brustkrebszellen exprimiert, und HIVEP2 ist bei Brustkrebs häufig herunterreguliert oder mutiert. Das interessanteste Gen in dieser Gruppe ist jedoch PIK3CD. Im Rahmen der Experimente für das hier vorgestellte Projekt fielen dazu einige Ungereimtheiten auf: Eigentlich wird PIK3CD für gesundes Zellwachstum verantwortlich gemacht. Wird es aber künstlich gehemmt, wachsen die Zellen unnatürlich stark und nehmen eine abnormale Form an. Auch verhält sich PIK3CD anders als seine Verwandten PIK3CA und PIK3CB und folgt deshalb scheinbar einem eigenen regulatorischen Mechanismus. Dies wirft neue biologische Fragestellungen auf, die im Rahmen von Folgestudien behandelt werden.

(ID:42648987)