Zum Inhalt springen

McGurk-Effekt

    Der McGurk-Effekt bezeichnet die Beeinflussung der menschlichen Wahrnehmung eines akustischen Sprachsignals durch die synchrone Beobachtung einer Lippenbewegung. Beim klassischen Versuch wird einer Probanden bzw. einem Probanden ein Videoband vorgespielt, auf dem eine Person zu sehen ist, die die Silben „ga-ga“ ausspricht, wobei die Tonspur jedoch manipuliert wurde und die Probanden und Probandinnen die Silben „ba-ba“ hören lässt. Etwa 98 Prozent der erwachsenen Versuchspersonen geben an, die Silben „da-da“ wahrgenommen zu haben.

    Die menschlichen Sinnesorgane arbeiten in vielen Situationen eng zusammen, um uns die Wahrnehmung der Umwelt und das Zurechtfinden im Alltag zu ermöglichen, d. h., alle akustischen, visuellen und haptischen Informationen werden im Gehirn gesammelt und dort aufgrund von Erfahrungen verarbeitet. Ohren und Augen ergänzen dabei einander und versuchen Verständnislücken zu schließen, denn sind etwa die Umgebungsgeräusche zu laut, kommen manche Worte nur undeutlich am Ohr an, jedoch das Mundbild des Gesprächspartners hilft dabei, dem Gespräch besser folgen zu können, d. h., die Augen unterstützen die Ohren und somit das Sprachverstehen. Im Alltag hören Menschen oft viele verschiedene Sprecher gleichzeitig und das Gehirn muss innerhalt weniger Augenblicke entscheiden, welche Informationen, die die Ohren liefern, nun relevant sind, wobei das Gehirn diese Informationen aufeinander aufbaut, d. h., eine Sinneswahrnehmung wird durch die andere ergänzt. Das menschliche Gehirn versucht also offensichtlich alle Signale inklusive der optischen Informationen zu nutzen, um zu erschließen, wie das akustische Signal erzeugt wurde. Da es erfahrungsgemäß einen direkten Zusammenhang zwischen Lippenbewegung und Lauten gibt, übt die visuelle Information der Lippenbewegung einen großen Einfluss auf die Verarbeitungseinheit für Phoneme aus und das Sprachzentrum kombiniert die widersprüchlichen Sinneseindrücke, um sie zu korrigieren.

    Werden daher Filme synchronisiert, entspricht der gesprochene Text oft nicht der Lippenbewegung, dennoch scheint sie halbwegs synchron zu sein, was sich mit der Dominanz des Hörens erklären lässt.

    Die Entdeckung des McGurk-Effekts durch Harry McGurk war eher zufällig, denn in den 1970ern untersuchte er eigentlich nur die Wahrnehmung von Kindern. Zahlreiche Studien zeigen, dass der Effekt auch in anderen Sprachen auftritt, allerdings ist er etwa im Chinesischen und Japanischen eher schwach ausgeprägt. Um das zu überprüfen, verglichen Satoko et al. (2016) zwei Gruppen von jeweils 20 japanischen und englischen Sprachschülern beim Betracht von Videos, wobei deren Gehirnaktivität, Blickverlauf und Reaktionszeiten festgehalten wurden. Dabei zeigte sich ein deutlicher Unterschied: Die Englischsprachigen sahen ihrem Gegenüber stets auf die Lippen und antizipierten einige hundert Millisekunden vor der eigentlichen Vokalisierung, was sie zu hören bekommen werden, und engten bereits  die Möglichkeiten ein. Bei Japanischsprachigen war der Blick nicht in gleicher Weise auf die Lippen fixiert, sondern sie verließen sich fast vollständig auf das Hören, wobei ihre Reaktionszeiten im Schnitt langsamer waren. Man vermutet, dass Menschen aus dem westlichen Kulturkreis schon sehr früh lernen, auditive und visuelle Wahrnehmungen miteinander zu verknüpfen, was auch zu einer starken Verbindung zwischen den jeweils zuständigen Gehirnarealen führt. Diese kulturellen Unterschiede zeigen, dass das Erlernen von Fremdsprachen durch die Beobachtung der Mundbewegungen nicht in allen Sprachen erleichtert werden kann.


    [Quelle: https://www.youtube.com/embed/G-lN8vWm3m0]


    Bekanntlich verlassen sich Menschen, wenn sie verstehen wollen, was jemand sagt, nicht nur auf das Gehör, sondern auch darauf, was sie sehen, d. h., sie beobachten die Lippenbewegungen und den Gesichtsausdruck. Thézé et al. (2020) haben in einem Experiment nun untersucht, wie Schwingungen im Gehirn am Verstehen von gesprochener Sprache beteiligt sind bzw. welcher andere Sinne wie Hören oder Sehen hauptsächlich beitragen. Für ihr Experiment wurden Sätze nacheinander von sechs virtuellen Personen gesprochen, und zwar mit Hintergrundlärm, der das Hörverständnis stören sollte. Nach jedem der insgesamt 240 Sätze des Experiments hatten die Versuchspersonen eine Sekunde Zeit, um zu wiederholen, was sie verstanden hatten. In dem Versuchssetting, das verwirrende audiovisuelle Eindrücke erzeugt, platzierte man die französischsprachigen Versuchspersonen vor einem Bildschirm, auf dem eine virtuelle Person Satzpaare sagt, die sehr ähnlich klingen, zum Beispiel „Il n’y a rien à boire“ und „Il n’y a rien à voir“ (Es gibt nichts zu trinken/nichts zu sehen). Bei gewissen, von der virtuellen Person gesprochenen Sätzen, wurde ein Konflikt programmiert: Die Versuchsperson hörte den einen Satz, sah aber auf den Lippen den anderen Satz. Zum Beispiel sprach die Person ein „b“, die Lippen formten ein „v“. Die Versuchspersonen wurden nun aufgefordert, den Satz zu wiederholen, den sie verstanden hatten, wobei die elektrische Aktivität in ihrem Gehirn mit Elektroden aufgezeichnet wurde. Es zeigte sich, dass in den Fällen, bei denen die Informationen über Ohr und Auge identisch waren, die Sätze meistens korrekt wiederholt wurden, widersprachen sich hingegen die auditiven und die visuellen Informationen, dann verließen sich die Versuchspersonen entweder eher auf das, was sie hörten, oder auf das, was sie sahen. Wenn sie etwa ein „v“ hörten, aber ein „b“ sahen, wurde die Wahrnehmung in etwa zwei Dritteln der Fälle durch das Hören dominiert, in den übrigen Fällen war das Sehen für die Interpretation ausschlaggebend. Dabei zeigten sich Unterschiede zwischen Personen, die sich auf ihr Gehör verlassen, und denjenigen, die ihren Augen vertrauen, denn rund 300 Millisekunden vor dem Zeitpunkt, in dem es zu einer Übereinstimmung beziehungsweise zu einem Konflikt zwischen auditiven und visuellen Zeichen kam, befanden sich die zerebralen Schwingungen im hinteren Temporal- und Okzipitallappen der beiden Personengruppen in jeweils anderen Phasen. Man weiß seit einigen Jahrzehnten, dass in gewissen Situationen das Gehirn die visuellen Anhaltspunkte den auditiven vorzieht, und zwar verstärkt dann, wenn das Tonsignal gestört ist, etwa durch Umgebungslärm, doch nun konnte man zeigen, dass die Neuronenschwingungen an diesem Prozess beteiligt sind. Überraschenderweise konnte der Zusammenhang zwischen der Oszillationsphase und der Wahrnehmung der Sätze nur in der rechten Hirnhälfte hergestellt werden, wobei aber diese Informationen normalerweise eher in der linken Hirnhälfte aufgenommen werden.

    Literatur

    Hisanaga, Satoko, Sekiyama, Kaoru, Igasaki, Tomohiko & Murayama, Nobuki (2016). Language/Culture Modulates Brain and Gaze Processes in Audiovisual Speech Perception. Scientific Reports, 6, http://dx.doi.org/10.1038/srep35265.
    Macdonald, John & McGurk, Harry (1978). Visual influences on speech perception processes. Perception and Psychophysics, 24, 253–257.
    McGurk, Harry & Macdonald, John (1976). Hearing Lips and seeing voices. Nature, 264, 746–748.
    Thézé, R., Giraud, A.-L. & Mégevand, P. (2020). The phase of cortical oscillations determines the perceptual fate of visual cues in naturalistic audiovisual speech. Science Advances, doi:10.1126/sciadv.abc6348.


    Impressum ::: Datenschutzerklärung ::: Nachricht ::: © Werner Stangl :::

    Schreibe einen Kommentar

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert