Zum Inhalt springen

prädiktive Kodierung

    Vorbemerkung: In den Neurowissenschaften hält etwas verspätet – die Psychologie ist hier schon einige Generationen früher zu vergleichbaren Annahmen gekommen – eine neue Theorie Einzug. Diese Theorie wird zunehmend zur Interpretation und Steuerung experimenteller und theoretischer Studien herangezogen und findet ihren Weg in viele andere Bereiche der Geistesforschung. Es handelt sich um die Theorie, dass das Gehirn ein hochentwickelter Mechanismus zur Überprüfung von Hypothesen ist, der ständig damit beschäftigt ist, den Fehler seiner Vorhersagen über den sensorischen Input, den er von der Welt erhält, zu minimieren. Dieser Mechanismus soll Wahrnehmen und Handeln und alles Geistige dazwischen erklären. Es ist eine attraktive Theorie, weil sie durch starke theoretische Argumente gestützt wird. Sie ist auch deshalb attraktiv, weil immer mehr empirische Beweise für sie sprechen. Sie hat eine enorme vereinheitlichende Kraft und kann doch auch im Detail erklären, wie man sich Wahrnehmung, Handlung, Aufmerksamkeit und andere zentrale Aspekte des Geistes vorstellen sollte.

    Unter prädiktiver Kodierung versteht man die Reaktion des Gehirns, wenn es mit einem speziellen Reiz konfrontiert ist, um eine mentale Erwartung dafür zu schaffen, was als Nächstes passieren wird. Das bedeutet, dass das Gehirn Informationen aus der jüngsten Vergangenheit verwendet, um vorherzusagen, was in der Zukunft geschehen wird. Das Gehirn empfängt also nicht nur Reize von außen und reagiert darauf, sondern vielmehr laufen intern ständig unbewusste Prozesse ab, um auf der Basis seines Wissens über die Welt vorherzusehen, was ein Mensch gerade sieht, hört, fühlt, schmeckt und riecht. Dieser Vorhersageprozess im Gehirn erlaubt es den Menschen, in einer sich ständig verändernden Umgebung Reize zu interpretieren und daraufhin zu handeln, wobei die Vorhersage dieser äußeren Welt jedoch meist nicht völlig korrekt ist, daher muss es einen Weg geben, damit sich das Gehirn selbst korrigieren kann, wenn eine Vorhersage fehlerhaft ist. Solche unbewussten Vorhersageprozesse im Gehirn werden als einer der grundlegenden Mechanismen angesehen, wie das menschliche Gehirn arbeitet.

    Diese prädiktive Kodierung ist für Lebewesen auch deshalb so wichtig, da sie einen Verhaltensvorteil verschafft. Prädiktive Kodierung ist ist nicht in erster Linie eine Datenreduktion, sondern eine Transformation der vorliegenden Werte in eine Form, die Prognosen ermöglicht bzw. Zusatzinformationen bereitstellt.

    Das prädiktive System im Gehirn beruht im wesentlichen auf drei neuronalen Systemen: Mediale temporale Gehirnareale einschließlich des Hippocampus und des parahippocampalem Cortex, kodieren und signalisieren statistische Merkmale der jüngsten Vergangenheit. In der Zwischenzeit erzeugen übergeordnete kortikale Regionen hierarchische Vorhersagen, während untergeordnete sensorische Cortizes sensorische Eingaben von unten nach oben verarbeiten und diese Eingaben mit Vorhersagen, die aus übergeordneten Regionen gesendet wurden, vergleichen.

    Die prädiktive Kodierung ist auch ein wichtiger Aspekt für die Theorie des selbstüberwachten Lernens im Gehirn, denn dabei werden die Vorhersagen im Gehirn mit den tatsächlichen sensorischen Eingaben verglichen und nur die Vorhersagefehler an den nächst höheren Bereich des visuellen Cortex weitergegeben. Die Nervenzellen können also vorhersagen oder ergänzen, was ihre Nachbarzellen sagen wollen, weil sie etwa die gleichen oder sehr ähnlichen Teile eines Bildes sehen, worauf nicht alle gleichzeitig reagieren. Uran et al. (2022) gehen in ihren Untersuchungen nun davon aus, dass sensorische Reaktionen aus Vergleichen zwischen Bottom-up-Eingaben und kontextuellen Vorhersagen resultieren, ein Prozess, bei dem Raten und Synchronisation unterschiedliche Rollen spielen könnten. Man zeigte Makaken Fotos von Blumen und Bäumen, aber auch von Gebäuden und weiteren natürlichen oder anderen Objekten, wobei man deren Gehirnaktivität im primären visuellen Cortex maß. Bei natürlichen Reizen können die Informationen für die rezeptiven Felder oft durch den Kontext vorhergesagt werden, etwa dass bei einem Baumstamm die Umrisslinie, selbst wenn sie zum Teil verdeckt ist, wahrscheinlich senkrecht weiterläuft, oder bei einem Apfel leicht gebogen. Um die Vorhersagbarkeit der Bildmerkmale messen zu können, haben die Forschenden ein künstliches neuronales Netzwerk programmiert und hat beobachtet, dass Neuronen dann besonders stark feuern, wenn Vorhersagefehler auftreten. Mit Hilfe von künstlichen neuronalen Netzen konnte man dabei genau bestimmen, welche Art von Vorhersagefehlern diese speziellen Neuronen interessiert Es hat sich dabei herausgestellt, dass sie sich hauptsächlich um die Vorhersage von jenen Merkmalen kümmern, die für die Objekterkennung wichtig sind, also auf das, worauf Menschen in einem Bild achten würden. Aufgrund dieser Ergebnisse vermutete man nun, dass das Gehirn kontinuierlich aus den empfangenen Sinneseindrücken lernt, indem es ein Art Vorhersagespiel spielt, bei dem es seine Vorhersagen mit den eingehenden visuellen Eingaben vergleicht.

    Es handelt sich bei der prädiktiven Kodierung also um einen grundlegenden Prozess im menschlichen Gehirn, bei dem Menschen nicht nur die jüngste Vergangenheit verarbeiten können, sondern diese Informationen zu einer Vorbereitung auf mögliche zukünftige Ereignisse verarbeiten. Die Aktivität der Hirnrinde erstellt demnach über die Sinnesorgane also kein Abbild der Außenwelt, sondern arbeitet als Prognosemaschine, d. h., die Sinneswahrnehmung bildet die Basis einer Vorhersage statt ein inneres Abbild der Welt zu erstellen. Demnach produziert das menschliche Gehirn in höheren Hirnregionen fortlaufend Erwartungen, die es dann mit den einlaufenden Sinnesdaten aus den niedrigeren Gehirnarealen vergleicht, um das Modell der Welt, das jeder Mensch im Laufe seines Lebens entwickelt hat, weiter zu verbessern. So entstehen etwa Halluzinationen, wenn sich der Cortex auf einer bestimmten Hierarchieebene trotz ungenügender Information über die zu erwartenden Sinnesinformationen sehr sicher ist und dadurch eine falsche Schlussfolgerung erzeugt. Eine Halluzination entsteht also nicht durch eine beeinträchtigte Sinneswahrnehmung, sondern durch ein Versagen bei der Kodierung der Unsicherheit.

    Auch die menschliche Netzhaut beherrscht diese Form der prädiktiven Kodierung, das sich die Welt aus Objekten zusammensetzt, die oft eine relativ gleichmäßige Oberfläche besitzen, sodass sich visuelle Eindrücke sparsam abbilden lassen. Bestimmte Zellen in der Netzhaut vergleichen die Lichtintensität an einem bestimmten Punkt mit der, die aufgrund benachbarter Punkte zu erwarten wäre und nur, wenn der gemessene Wert von der Vorhersage abweicht, wird diese Differenz weitergeleitet. Solche Differenz-Signale haben eine geringere Schwankungsbreite als die Rohdaten für jeden bestimmten Punkt im Raum.  Forschungen erbrachten auch Hinweise, dass das Gehirn die prädiktive Kodierung auch für den Geruchssinn verwendet, sodass man etwa beim Anblick einer Rose eine Erwartung ihres Duftes entwickelt, bevor dieser die Nase erreicht. Auch im motorischen Bereich hat man festgestellt, dass auch eine sensomotorische Komponente, basierend auf den ausgeführten motorischen Kommandos, prädiktiven Einfluss ausübt, wenn etwa Hand und Auge miteinander interagieren, um Ziele im Raum zu fokussieren oder zu greifen.

    Diese prädiktive Kodierung findet sich auch im auditiven Bereich. Schmitt et al. (2021) haben versucht, mithilfe von Künstlicher Intelligenz zu erklären, wie das menschliche Gehirn beim Sprachverstehen voraushört, denn bekanntlich weiß man in einer Konversation manchmal ganz genau, was das Gegenüber gleich sagen wird, d. h., das Gehirn ist immer schon einen Schritt voraus. So kann man beim Zuhören etwa das nächste Wort mit einer erstaunlich hohen Trefferquote vorhersagen, was umso bemerkenswerter ist, als dass diese Vorhersagen auf sehr vielen vorangegangenen Äußerungen beruhen können, auch wenn diese noch so irreführend sein mögen. In einem Experiment, das den Herausforderungen des alltäglichen Sprachverstehens nachempfunden war, hörten Probanden und Probandinnen der Literaturnobelpreisträgerin Herta Müller rund eine Stunde aufmerksam dabei zu, wie sie im Plauderton von ihrer Kindheit im rumänischen Banat erzählte, während ein Magnetresonanztomograph dabei fortlaufend die Aktivität im gesamten Gehirn der Zuhörenden aufzeichnete. Menschen speichern ein soeben gehörtes Wort in der Hörrinde im Schläfenlappen und einen langen Satz im höher gelegenen, nachgeschalteten Scheitellappen, wobei auch artifizielle Netzwerke aus dem Bereich des Maschinellen Lernens diese Grundprinzipien des menschlichen Gehirns nutzen und das Gesagte in aufeinander aufbauenden, zunehmend abstrakten Verarbeitungsstufen speichern, sodass sie mittlerweile in der Vorhersage von Sprache annähernd so gut wie Menschen sind. In der Studie wurde dann verglichen, wie Maschine und Mensch einen bestimmten Textabschnitt bearbeiten, um von den bekannten und leicht zu überprüfenden Berechnungen in artifiziellen Netzwerken auf noch unbekannte Verarbeitungsstrategien im Gehirn zuschließen. Dabei zeigte sich, dass Hirnregionen fernab der Hörrinde im Scheitellappen bei jenen Textstellen eine stärkere Aktivierung zeigten, bei denen sich auch eine höhere Verarbeitungsstufe des artifiziellen Netzwerks überrascht von Herta Müllers nächster Äußerung zeigte. Dies verdeutlicht, dass in verschiedenen Hirnarealen unterschiedlich lange Gesprächsinhalte genutzt werden, um eine Vorhersage zu machen und diese mit anderen Hirnarealen abzustimmen. Erst eine solche Segmentierung von Gesprächen erlaubt es den Zuhörenden, einige Gesprächsabschnitte für die Vorhersage heranzuziehen, aber andere (bestenfalls unwichtige) zu ignorieren. Diese Vorhersagehierarchie in Schläfen- und Scheitellappen konnte man allerdings nur dann nachweisen, wenn das artifizielle Netzwerk die Gesprächsinhalte in einzelne Ereignisse unterteilte. So werden im Schläfenlappen kurze, gerade erst beschriebene Ereignisse für die Vorhersage genutzt, etwa wenn Herta Müller in den blau-schwarzen Weintrauben (Tintentrauben) im Garten ihrer Eltern die Farbe der Nacht erkennt. Im Scheitellappen werden hingegen längere, weiter zurückliegende Ereignisse hinterlegt, etwa wenn Herta Müller auf dem Weg zum Elternhaus einen ausgiebigen Spaziergang durch die Straßen ihres Heimatdorfs macht. Diese ereignisbasierte Vorhersagehierarchie im Gehirn kann nicht nur sehr viele verschiedene Gesprächsinhalte vorhalten, sondern muss diese auch seltener, nämlich nur am Ende eines Ereignisses, aktualisieren. Es könnte daher nach Ansicht der ForscherInnen genau solch eine reichhaltige und doch recheneffiziente Netzwerkarchitektur sein, mit der das Gehirn beim Zuhören genaue und schnelle Vorhersagen treffen kann. Im Alltag unterstützt diese Hirnfunktion Menschen vor allem bei der erfolgreichen Kommunikation mit anderen und könnte künftig auch helfen, die Kommunikation zwischen Menschen und Maschinen wie Siri oder Alexa weiter zu verbessern.


    Angesichts der Bedeutung, die Vorhersagen für das tägliche Leben haben, könnten Beeinträchtigungen der Art und Weise, wie Erwartungen an die sensorischen Bahnen übermittelt werden, tiefgreifende Auswirkungen auf die Kognition haben. Lese-Rechtschreib-Schwäche, die am weitesten verbreitete Lernstörung, wurde bereits mit veränderter Verarbeitung in der Hörbahn und mit Schwierigkeiten in der auditorischen Wahrnehmung in Verbindung gebracht. Tabas et al. (2020) haben auch gezeigt, warum Menschen mit Lese-Rechtschreibschwäche Schwierigkeiten bei der Wahrnehmung von Sprache haben. Man maß dabei mittels funktioneller Magnetresonanztomographie die Gehirnreaktionen von Probanden, während diese Tonfolgen hörten. Diese wurden angewiesen, herauszufinden, welcher der Klänge in der Reihenfolge von den anderen abweicht. Die Erwartungen der Probanden wurden so verändert, dass sie den abweichenden Ton an bestimmten Stellen der Sequenz erwarten würden. Man konzentrierte sich dabei auf die Reaktionen, die die abweichenden Geräusche in zwei wichtigen Kernen der Hörbahn, die für die auditorische Verarbeitung verantwortlich sind, auslösten: dem colliculus inferior und dem medialen corpus geniculatum mediale. Obwohl die Teilnehmenden die abweichenden Töne schneller erkannten, wenn sie an Positionen platziert wurden, an denen sie diese erwarteten, verarbeiteten die Kerne der Hörbahn die Töne nur, wenn sie an unerwarteten Positionen platziert wurden. Diese Ergebnisse passen gut in eine allgemeine Theorie der sensorischen Verarbeitung, die die Wahrnehmung als einen Prozess der Hypothesenprüfung beschreibt, nämlich als prädiktive Kodierung, die davon ausgeht, dass das Gehirn ständig Vorhersagen darüber generiert, wie die physische Welt im nächsten Moment aussehen, klingen, sich anfühlen und riechen wird, und dass die Neuronen, die für die Verarbeitung der Sinne zuständig sind, Ressourcen sparen, indem sie nur die Unterschiede zwischen diesen Vorhersagen und der tatsächlichen physischen Welt darstellen. Offenbar haben die Überzeugungen einen entscheidenden Einfluss darauf, wie Menschen die Realität wahrnehmen, also diese Überzeugungen mit sensorischen Informationen abgleichen, wobei dieser Prozess auch in den einfachsten und evolutionär ältesten Teilen des Gehirns vorherrscht, sodass alles, was Menschen wahrnehmen, durch subjektiven Überzeugungen über die Welt geprägt ist.

    In anderen Experimenten mussten Probanden mehrfach einen Knopf im Sekundentakt drücken und konnten bei jedem Knopfdruck etwa den Ton einer Trompete hören, wobei sie bei einem Tastendruck manchmal auch kein Geräusch hörten, d. h., ihre Erwartung wurde nicht erfüllt und dieses überraschende Ausbleiben des Tons erregte die Aufmerksamkeit der Teilnehmenden, denn bereits kurz nach dem Knopfdruck und vor dem Überraschungsmoment konnte mittels EEG eine starke Gehirnaktivität im auditiven Bereich gemessen werden. Wenn der Knopf gedrückt wird, vergleichen auditive Areale offenbar die Vorhersage des Trompetengeräuschs mit dem, was eigentlich zu hören ist. Daher folgt gar kein Ton, wird ein Signal aus diesen Hirnbereichen gesendet, dass der zentralen Verarbeitung mitteilt, dass die Vorhersage falsch war. Dieses Fehlersignal ist das Ergebnis eines fundamentalen Mechanismus des Gehirns, der die Menschen die Umgebung wahrnehmen und danach handeln lässt. Durch diesen Mechanismus kann das Gehirn von seinem Fehler lernen und zukünftig bessere Vorhersagen treffen sowie Sinneseindrücke besser interpretieren. Ausgehend von solchen Untersuchungen haben Dercksen et al. (2020) nun erforscht, ob ein derartiges Fehlersignal auch zu erwarten ist, wenn sich das Geräusch nach jedem Knopfdruck ändert. Obwohl das Gehirn nicht weiß, welches Geräusch genau folgt, so weiß es doch, dass irgendein Geräusch auf den Knopfdruck folgen wird, aber die Vorhersagbarkeit wird dadurch erschwert. In einer Probandengruppe konnte man mit neuen Analysetechniken (zeitliche Hauptkomponentenanalyse und Bayes-Statistik) ein starkes Fehlersignal im auditiven Bereich als Reaktion bei tatsächlichem Ausbleiben des Geräuschs messen, wenn die Vorhersage des Geräuschs konkret war. Das EEG hat jedoch auch ein Fehlersignal im Hörbereich gezeigt, wenn die Vorhersage unkonkret gewesen ist, doch dieses Fehlersignal war jedoch kleiner. Diese Ergebnisse deuten auf die Existenz sowohl spezifischer als auch unspezifischer Vorhersagen entlang der Schallverarbeitungshierarchie hin, wobei die Präzisionsgewichtung möglicherweise die Stärke des Vorhersagefehlers beeinflusst. Das bedeutet letztlich, dass das Gehirn auch Vorhersagen auf Grundlage unvollkommenen Wissens treffen kann, wobei vermutlich das Fehlersignal deshalb kleiner ist, weil die Vorhersage im Hinblick auf das Geräusch weniger präzise ist, und deshalb vom Gehirn bei der Interpretation der Sinneseindrücke geringer gewichtet wird.

    Generative Pre-trained Transformer 3 (GPT-3)

    Sprachmodelle der künstlichen Intelligenz werden mit großen Mengen Textdaten darauf trainiert, Sätze zu vervollständigen, wobei diese einfache Aufgabe kombiniert mit großen Netzen und vielen Daten dazu führte, dass es in den letzten Jahren große Fortschritten in der Computerlinguistik gab, denn statt vielfältige Regeln der Linguistik zu lernen, lernt Künstliche Intelligenz ausgehend von vorherigen Wörtern, das nächste Wort vorherzusagen. Generative Pre-trained Transformer 3 (GPT-3) entwickeln dabei ein autoregressives Sprachmodell, das Deep Learning einsetzt, um menschenähnlichen Text zu erzeugen. Diese Prognosefähigkeit Künstlicher Intelligenz erinnert dabei an die Theorie der prädiktiven Kodierung, dass also das Gehirn interne, sich ständig aktualisierende Modelle der Welt bildet und mit diesen fortlaufend Vorhersagen in der Wahrnehmung und Kognition trifft, die mit den tatsächlich eintreffenden Informationen verglichen werden.

    Wissenschaftliche Veröffentlichungen zeigen auch, dass sich die neuronale Aktivität mittlerer Schichten von GPT-Modellen auf das Gehirn während des Konsums von Text oder Sprache abbilden lassen. Dabei können Aktivitäten aus einer tieferen Schicht des neuronalen Netzes etwa in synthetischen Bilder der Funktionellen Magnetresonanztomographie verwandelt und mit echten Aufnahmen von Menschen verglichen werden. Diese Ähnlichkeiten zwischen Deep-Learning-Algorithmen und dem Gehirn ermöglichen es, die Art und Weise zu verändern, wie man die Bildgebung des Gehirns untersucht, denn je mehr man einen Text versteht, desto mehr reagiert das menschliche Gehirn wie das GPT-Modell. Anhand der Daten von Epilepsiepatienten konnte man auch zeigen, dass die Gehirne ohne explizite Aufgabenstellung kommende Wörter vorhersagten, wobei die Prognosesignale bis zu tausend Millisekunden früher auftraten. Allerdings sind aktuelle Sprachmodelle noch weit davon entfernt, mit dem Sprachvermögen des menschlichen Gehirns mitzuhalten, denn während KI-Modelle auf die Vorhersage des nächsten Wortes trainiert werden, trifft das Gehirn nach der Theorie der prädiktiven Kodierung weiterreichende und vor allem hierarchische Vorhersagen. Statt also nur das nächsten Wort zu prognostizieren, sagt das Gehirn mehrere Wörter voraus und nutzt neben den ebenfalls von KI-Modellen verwendeten syntaktischen Informationen auch die Semantik für weiterreichende und abstrakte Prognosen.

    Literatur

    Dercksen, Tjerk T., Widmann, Andreas, Schröger, Erich & Wetzel, Nicole (2020). Omission related brain responses reflect specific and unspecific action-effect couplings. NeuroImage, 215, doi:10.1016/j.neuroimage.2020.116840.
    Schmitt, Lea-Maria, Erb, Julia, Tune, Sarah, Rysop, Anna U., Hartwigsen, Gesa & Obleser, Jonas (2021). Predicting speech from a cortical hierarchy of event-based time scales. Science Advances, 7, doi: 10.1126/sciadv.abi6070.
    Tabas, Alejandro, Mihai, Glad, Kiebel, Stefan, Trampel, Robert, von Kriegstein, Katharina, Shinn-Cunningham, Barbara, Griffiths, Timothy & Malmierca, Manuel (2020). Abstract rules drive adaptation in the subcortical sensory pathway. eLife, doi:10.7554/eLife.64501.
    Uran, Cem, Peter, Alina, Lazar, Andrea, Barnes, William, Klon-Lipok, Johanna, Shapcott, Katharine A., Roese, Rasmus, Fries, Pascal, Singer, Wolf & Vinck, Martin (2022). Predictive coding of natural images by V1 firing rates and rhythmic synchronization. Neuron, doi:10.1016/j.neuron.2022.01.002.
    https://idw-online.de/de/news747468 (20-05-15)
    https://mixed.de/was-sprachalgorithmen-und-das-menschliche-gehirn-gemeinsam-haben/ (21-12-08)
    https://en.wikipedia.org/wiki/GPT-3 (21-12-08)


    Impressum ::: Datenschutzerklärung ::: Nachricht ::: © Werner Stangl :::

    Schreibe einen Kommentar

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert