Gesprächsinhalte vorhersagen Das Gehirn steht auf Autovervollständigen
„Voraushören“ was unser Gegenüber als nächstes sagen wird, ist eine der zahlreichen bemerkenswerten Fähigkeiten unseres Gehirns. Wie dieser Prozess abläuft, haben Forscher der Universität Lübeck mithilfe von MRT-Aufnahmen und künstlichen Netzwerken untersucht. Die Ergebnisse könnten auch helfen, die Maschine-Mensch-Kommunikation mit Sprachassistenten zu verbessern.
Anbieter zum Thema

Lübeck – Der frühe Vogel… Hier werden die meisten wissen, wie der Satz weitergeht. Doch auch, wenn es nicht um Würmer-fangende Vögel geht, ist das menschliche Gehirn gut darin, die nächsten Worte des Gegenüber zu antizipieren und dem tatsächlich Gesagten immer einen Schritt voraus zu sein. So können wir beim Zuhören etwa das nächste Wort mit einer erstaunlich hohen Trefferquote vorhersagen. Das ist umso bemerkenswerter, als diese Vorhersagen auf sehr vielen vorangegangenen Äußerungen beruhen können, auch wenn diese schon weiter zurückliegen.
Der Forschungsgruppe Auditive Kognition der Universität zu Lübeck ist es in Zusammenarbeit mit Forschern des Max-Planck-Instituts für Kognitions- und Neurowissenschaften nun gelungen, mithilfe von künstlicher Intelligenz zu erklären, wie unser Gehirn beim Sprachverstehen „voraushört“.
Geschichten aus dem Magnetresonanztomographen
In ihrer Studie entschlüsselten die Wissenschaftler, wie es das Gehirn schafft, die richtigen Informationen für das „Voraushören“ auszuwählen. Dazu nutzten sie ein Experiment, das den Herausforderungen des alltäglichen Sprachverstehens nachempfunden war: Probanden hörten darin rund eine Stunde aufmerksam eine Audioaufnahme der Literaturnobelpreisträgerin Herta Müller, in der sie im Plauderton von ihrer Kindheit im rumänischen Banat erzählte. Ein Magnetresonanztomograph (MRT) zeichnete dabei fortlaufend die Aktivität im gesamten Gehirn der Zuhörenden auf.
:quality(80)/images.vogel.de/vogelonline/bdb/1828000/1828089/original.jpg)
Konzepte und Wahrnehmung im Gehirn
Wenn das Telefon im Gehirn klingelt, obwohl es gar nicht da ist
Es ist bekannt, dass Menschen ein soeben gehörtes Wort in der Hörrinde im Schläfenlappen speichern, während ein langer Satz im höher gelegenen, nachgeschalteten Scheitellappen verarbeitet wird. Auch artifizielle Netzwerke aus dem Bereich des maschinellen Lernens nutzen diese Grundprinzipien des menschlichen Gehirns und speichern das Gesagte in aufeinander aufbauenden, zunehmend abstrakten Verarbeitungsstufen. Mittlerweile sind sie in der Vorhersage von Sprache genauso gut wie Menschen.
Auch gut trainierte artifizielle Netzwerke bekamen die Aufgabe, Herta Müllers Erzählung zu- und vorauszuhören. Den Kniff ihrer Studie beschreibt Studienleiterin Lea-Maria Schmitt so: „Indem wir vergleichen, wie Maschine und Mensch einen bestimmten Textabschnitt ‚bearbeiten‘, können wir von den bekannten und leicht zu überprüfenden Berechnungen in artifiziellen Netzwerken auf noch unbekannte Verarbeitungsstrategien im Gehirn schließen.“
Parallelen von Gehirn und künstlichem Netzwerk
In der Auswertung machten die Forscher die Entdeckung, dass unerwartete Wendungen im Gesagten das menschliche Gehirn wie auch das artifizielle Netzwerk in ähnlicher Weise forderten: Hirnregionen fernab der Hörrinde im Scheitellappen zeigten bei jenen Textstellen eine stärkere Aktivierung, bei denen sich auch eine höhere Verarbeitungsstufe des artifiziellen Netzwerks „überrascht“ von Herta Müllers nächster Äußerung zeigte. Dies verdeutlicht, dass in verschiedenen Hirnarealen unterschiedlich lange Gesprächsinhalte genutzt werden, um eine Vorhersage zu machen und diese mit anderen Hirnarealen abzustimmen. Erst eine solche Segmentierung von Gesprächen erlaubt es den Zuhörenden, einige Gesprächsabschnitte für die Vorhersage heranzuziehen, aber andere (bestenfalls unwichtige) zu ignorieren.
:quality(80)/images.vogel.de/vogelonline/bdb/1909000/1909065/original.jpg)
KI und neuronale Netze
Algorithmen im Training
Kommunikation verbessern
Die „Vorhersagehierarchie“ in Schläfen- und Scheitellappen konnten die Forscher allerdings nur finden, wenn das artifizielle Netzwerk die Gesprächsinhalte in einzelne Ereignisse unterteilte. So werden im Schläfenlappen kurze, gerade erst beschriebene Ereignisse für die Vorhersage genutzt – etwa wenn Herta Müller in den blau-schwarzen Weintrauben im Garten ihrer Eltern die Farbe der Nacht erkennt.
Im Scheitellappen werden hingegen längere, weiter zurückliegende Ereignisse hinterlegt – etwa wenn die Erzählerin auf dem Weg zum Elternhaus einen ausgiebigen Spaziergang durch die Straßen ihres Heimatdorfs macht. Diese „ereignisbasierte“ Vorhersagehierarchie im Gehirn kann nicht nur sehr viele verschiedene Gesprächsinhalte vorhalten, sondern muss diese auch seltener, nämlich nur am Ende eines Ereignisses, aktualisieren. „Es könnte genau solch eine reichhaltige und doch recheneffiziente Netzwerkarchitektur sein, mit der unser Gehirn beim Zuhören genaue und schnelle Vorhersagen treffen kann“, sagt Forschungsgruppenleiter Jonas Obleser.
Im Alltag unterstützt uns diese Hirnfunktion v. a. bei der erfolgreichen Kommunikation mit anderen und könnte künftig auch helfen, die Kommunikation zwischen Menschen und Maschinen wie Siri oder Alexa weiter zu verbessern.
Originalpublikation: L.-M. Schmitt, J. Erb, S. Tune, A. U. Rysop, G. Hartwigsen, J. Obleser, Predicting speech from a cortical hierarchy of event-based timescales. Science Advances 7, eabi6070 (2021), DOI: 10.1126/sciadv.abi6070
(ID:47876402)