Statistisches Lernen ist ein grundlegender Mechanismus der Informationsverarbeitung im menschlichen Gehirn, bei dem aus der Flut sensorischer Daten probabilistische Regelmäßigkeiten ermittelt werden, was zur Strukturierung des Informationsflusses beiträgt. Diese Prinzipien des statistischen Lernens sind besonders wesentlich beim Spracherwerb, denn nach derzeitigem Wissensstand kann statistisches Lernen die Wortsegmentierung, den Erwerb eines Lexikons und einfacher grammatikalischer Regeln relativ gut erklären. Schon Säuglinge können einzelne Worte in Silbenströmen erkennen, d. h., die statistische Verteilung von sprachlichen Elementen im Sprechfluss wird dabei ausfindig gemacht, und diese Information dann dazu verwendet, um mögliche Wortgrenzen zu identifizieren, indem die Häufigkeit jeder Silbe im Input ausfindig gemacht und erkannt wird, wie oft eine Silbe einer anderen Silbe folgt, d. h., die Gehirne der Kinder berechnen dabei automatisch die Übergangswahrscheinlichkeiten zwischen Silben. Kurz: Statistisches Lernen ist die Fähigkeit, Sprachmuster zu entdecken, wie etwa die Pausen zwischen Silben.
Unbeantwortet ist derzeit noch die Frage, ob statistisches Lernen alle Aspekte des Spracherwerbs erklären kann, wobei auch noch nicht geklärt ist, welche Gehirnregionen am statistischen Lernen beteiligt oder dazu fähig sind. Bisher wurde hauptsächlich erforscht, welche Veränderungen im Gehirn nach einem statistischen Lernprozess auftreten, doch weniger, wo diese Prozesse verortet sind und wie das Gehirn die Grundeinheiten entschlüsselt, aus denen Sprache oder auch visuelle Verarbeitung bestehen. Henin et al. (2021) haben mit Hilfe des „Neural Frequency Tagging“ jene Bereiche im Gehirn identifiziert, die auf diese verborgenen Grundeinheiten reagierten, und haben untersucht, wie die verschiedenen Aspekte der Datenströme codiert werden. Es zeigte sich, dass einige Bereiche des Gehirns nur die statistischen Eigenschaften der Datenströme codieren oder die Position einzelner Elemente innerhalb der Grundeinheiten verfolgen. Andere Bereiche des Gehirns, wie der Hippocampus, codieren die Grundeinheiten im Gesamten. Offenbar gibt es dazu mehrere Rechensysteme im Gehirn, die parallel arbeiten.
Statistisches Lernen spielt auch im Bereich der Künstlichen Intelligenz eine wichtige Rolle, denn dafür wird eine Vielzahl von Verfahren eingesetzt, um komplexe Datensätze zu verstehen und zu modellieren. Diese Datensätze können aus Sensordaten, Kundendaten oder Verkaufszahlen bestehen, wobei das Ziel des statistischen Lernens immer das Erkennen von Gesetzmäßigkeiten aus Beobachtungen ist. Hierzu können relativ einfache Verfahren wie die lineare Regression, Nächste-Nachbarn-Analyse, aber auch komplexere wie Support Vector Machines oder neuronale Netze eingesetzt werden. Die grundlegende Herausforderung des statistischen Lernens in der AI ist stets die Generalisierungsfähigkeit der gewonnenen Erkenntnisse, die es dann ermöglicht, auch aus unbekannten Daten zuverlässige Informationen zu gewinnen, sodass man Vorhersagen treffen und Rückschlüsse auf die zentralen Einflussgrößen eines Prozesses ziehen zu können. Hat man nämlich herausgefunden, welche Größen das Ergebnis besonders beeinflussen, kann man versuchen diese Größen z. B. in einem Herstellungsprozess einzusetzen.
Literatur
Breitenstein, C. & Knecht, S. (2003). Spracherwerb und statistisches Lernen. Nervenarzt 74, 133–143.
Henin, Simon, Turk-Browne, Nicholas B., Friedman, Daniel, Liu, Anli, Dugan, Patricia, Flinker, Adeen, Doyle, Werner, Devinsky, Orrin & Melloni, Lucia (2021). Learning hierarchical sequence representations across human cortex and hippocampus. Science Advances, 7, doi:10.1126/sciadv.abc4530.
Stangl, W. (2021). Wie funktioniert statistisches Lernen im Gehirn? Was Stangl so notiert.
WWW: https://notiert.stangl-taller.at/grundlagenforschung/wie-funktioniert-statistisches-lernen-im-gehirn/ (2021-04-08)