Die Sprachneuroprothetik zielt darauf ab, Menschen, die aufgrund körperlicher oder neurologischer Beeinträchtigungen nicht sprechen können, einen natürlichen Kommunikationskanal zu bieten. Die Echtzeitsynthese akustischer Sprache direkt aus gemessener neuronaler Aktivität könnte natürliche Gespräche ermöglichen und die Lebensqualität dieser Menschen deutlich verbessern, deren Kommunikationsmöglichkeiten stark eingeschränkt sind.
Jüngste Fortschritte bei den Dekodierungsverfahren haben zu qualitativ hochwertigen Rekonstruktionen akustischer Sprache aus invasiv gemessener neuronaler Aktivität geführt, wobei die meisten bisherigen Forschungsarbeiten jedoch Daten verwenden, die bei Experimenten mit offenem Kreislauf für artikulierte Sprache gesammelt wurden, was sich möglicherweise nicht direkt auf imaginäre Sprachprozesse übertragen lässt.
Die nun entwickelte innovative Neurosprachprothese basiert auf einem Closed-Loop-System, das Technologien aus der modernen Sprachsynthese mit Gehirn-Computer-Schnittstellen verbindet. Als Eingabe erhält es die neuronalen Signale der Nutzenden, die sich vorstellen zu sprechen, und transformiert diese mittels maschineller Lernverfahren praktisch zeitgleich in Sprache und gibt diese hörbar als Rückmeldung an die Nutzenden aus. Dadurch schließt sich für diese der Kreis vom Vorstellen des Sprechens und dem Hören ihrer Sprache.
In einem ersten Schritt liest eine Patientin Texte vor, aus denen das Closed-Loop-System mittels maschineller Lernverfahren die Korrespondenz zwischen Sprache und neuronaler Aktivität erlernt. Im zweiten Schritt wird dieser Lernvorgang mit geflüsterter und mit vorgestellter Sprache wiederholt. Dabei erzeugt das Closed-Loop-System synthetisierte Sprache, und obwohl das System die Korrespondenzen ausschließlich aus hörbarer Sprache gelernt hatte, wird auch bei geflüsterter und bei vorgestellter Sprache eine hörbare Ausgabe erzeugt.
Die Dekodierungsmodelle stützen sich vorwiegend auf frontale Aktivität, was darauf hindeutet, dass Sprachprozesse ähnliche Repräsentationen haben, wenn sie vokalisiert, geflüstert oder imaginiert werden. Auch wenn die rekonstruierten Audiodaten noch nicht verständlich sind, stellt dieser Ansatz der Echtzeitsynthese einen wesentlichen Schritt zur Untersuchung der Frage dar, wie Menschen lernen, eine Sprachneuroprothese mit geschlossenem Regelkreis auf der Grundlage von imaginierter Sprache zu bedienen. Dies lässt auch den Schluss zu, dass die zugrundeliegenden Sprachprozesse im Gehirn für hörbar produzierte Sprache vergleichbar sind zu denen für geflüsterte und vorgestellte Sprache.
Literatur
Angrick, Miguel, Ottenhoff, Maarten C., Diener, Lorenz, Ivucic, Darius, Ivucic, Gabriel, Goulis, Sophocles, Saal, Jeremy, Colon, Albert J., Wagner, Louis, Krusienski, Dean J., Kubben, Pieter L., Schultz, Tanja & Herff, Christian (2021). Real-time synthesis of imagined speech processes from minimally invasive recordings of neural activity. Communications Biology, 4, doi:10.1038/s42003-021-02578-0.