FU Berlin
Foto: Ausserhofer

 

Das Wort "Huhn" riecht nicht wie ein "Huhn" und schmeckt nicht wie ein "Huhn"

Zur Neurobiologie der Sprache

Dr. Ralf Siedenberg und Gabriel Curio

Die menschliche Hörrinde kann Vokale und musikalische Dreiklänge automatisch klassifizieren. Das Gehirn erkennt dabei einen Vokal unabhängig davon, ob dieser von einem Erwachsenen mit tiefer Stimme oder einem Kind gesprochen wird. Wie Studien der AG Neurophysik an der Klinik für Neurologie des Universitätsklinikum Benjamin Franklin darüber hinaus zeigen, kann das Gehirn musikalische Dreiklänge auch dann unterscheiden, wenn der Hörer dies nicht bewusst wahrnimmt.

Der bekannteste Linguist des 20. Jahrhunderts, Noam Chomsky, meinte, die menschliche Sprache sei so komplex, dass ein potentieller außerirdischer Besucher größte Schwierigkeiten hätte, die Grammatik der natürlichen menschlichen Sprache zu entschlüsseln. Die Leichtigkeit, mit der ein Kleinkind ohne besondere Anleitung die Sprache seiner Umgebung lerne, deute auf eine angeborene Sprachfähigkeit hin. Chomsky schloss daraus, es gebe eine „Universelle Grammatik“, die allen Grammatiken der natürlichen Sprachen zugrunde liege und die die biologische Basis der menschlichen Sprachkompetenz bilde. Steven Pinker bezeichnete diese biologische Sprachkompetenz des Menschen als den „Sprachinstinkt“, um so die angeborene Fähigkeit zum Spracherwerb zu betonen. Gleichzeitig meint Pinker, dass dieser Sprachinstinkt spezifisch menschlich sei und der Mensch sich dadurch von den Tieren unterscheide.

Vereinfachend kann man die menschliche Sprache als ein Kommunikationssystem aus Wörtern und Regeln beschreiben. In der Terminologie der Linguistik entspricht dies in etwa der Semantik und der Syntax. Dabei ist in der menschlichen Sprache die Paarung von Laut und Bedeutung zumeist eine willkürliche und muss als Wort vom Kind erlernt werden. Das Wort „Huhn“ sieht nicht aus wie ein Huhn, riecht und schmeckt nicht wie ein Huhn und klingt auch nicht wie ein Huhn. Die Symbole der Tiersprachen, wie beispielsweise Drohgebärden und Drohlaute, sind hingegen angeboren und in ihrer Bedeutung zum Teil sogar von anderen Spezies verständlich. Ähnliches gilt auch für einen Teil der emotionalen Ausdrucksfähigkeit des Menschen, die als nonverbale Kommunikation unabhängig oder überlagert mit der verbalen Kommunikation funktioniert. Die Ausdrucksfähigkeit der menschlichen Sprache ist außerdem gekennzeichnet von der Möglichkeit der Neubildung von Wörtern sowie der Kombination von Wörtern zu Phrasen und Sätzen. Die Regeln dazu bildet die jeweilige Grammatik einer Sprache. Während Autoren wie Chomsky und Pinker insbesondere die Komplexität der menschlichen Syntax als einmalig betrachten, meinen andere Autoren, wie zum Beispiel Philip Liebermann, dass der sprachlichen Syntax die Sequenzierungsfähigkeit des motorischen Systems von Primaten und anderen Wirbeltieren zugrunde liegt und damit letztlich ein gradueller und nicht ein absoluter Unterschied zwischen Menschen und anderen Tieren bestehe. Auch die von Chomsky und Pinker betonte plausible Erklärung von Sprache durch Worte und Regeln ist nicht unwidersprochen. Computersimulationen mit künstlichen neuronalen Netzwerken, zum Beispiel von James McClelland und Mark Seidenberg, zeigen, dass sprachliche Kompetenz nicht notwendigerweise an eine explizite Implementierung von Sprachregeln im Sinne von nachvollziehbaren Algorithmen gebunden ist. Diese Computermodelle weisen Sprachverständnis und Sprachproduktion nach, die mit grammatikalischen Regeln beschreibbar sind, ohne dass diese Regeln aber in den Netzwerken nachvollziehbar sind. Inwieweit biologische Neuronennetzwerke ähnlich arbeiten, ist zur Zeit Gegenstand intensiver Forschung.



Foto: Ausserhofer


Die linke Gehirnhälfte regelt Sprachfähigkeit
Die ersten neurologisch begründeten Modelle der menschlichen Sprachverarbeitung reichen zurück in das 19. Jahrhundert. Danach ist die Sprachfähigkeit der meisten Menschen in der linken Gehirnhälfte lokalisiert. Viele Areale der frontalen und temporalen Hirnrinde sowie der Thalamus und die Stammganglien sind an der Sprachverarbeitung beteiligt. Syntaktische Störungen haben vorwiegend eine frontale Lokalisation, ohne dass sie einem einzelnen Sprachzentrum zu zuordnen sind. Störungen der Semantik und des Lexikons sind in hinteren temporalen Nervennetzen lokalisiert. Störungen der Prosodie (Sprachmelodie und Sprachrhythmus) sind zum Teil auch durch rechtshemisphärische Schädigungen (Läsionen) bedingt, interessanterweise analog zur Amusie, einer Störung der Musikverarbeitung. Sprachverarbeitung findet also an vielen Orten im Gehirn gleichzeitig statt. Die genaue „Orchestrierung“ dieser verstreuten neuronalen Module aufzuklären, ist Gegenstand einer intensiven Forschung, die hirnphysiologische Korrelate der sensomotorischen Verarbeitung von Sprach- und Musikreizen aufzudecken versucht.

Lange Zeit war es in der Wissenschaft nur eine Vermutung, dass die menschliche Sprache auf biologischen Grundlagen beruht. Ihre systematische Untersuchung ist ein relativ junges Forschungsgebiet. Dies liegt nicht zuletzt daran, dass methodische Schwierigkeiten eine systematische Erforschung an gesunden Probanden verhinderten. So wurden in der Zell- und Molekularbiologie sowie in der Genetik zwar große Fortschritte erzielt. Diese betreffen aber das Verständnis von zellulären und subzellulären Funktionen. Das Phänomen der menschlichen Sprache erwächst jedoch aus dem Zusammenspiel tausender Nervenzellen in unterschiedlichen Hirnregionen. Die technischen Entwicklungen der vergangenen zehn Jahre ermöglichten erstmals nicht-invasive Untersuchungen, die linguistische Fragestellungen mit neurologischen und biologischen koppeln.

Bildgebende Verfahren, wie etwa die Röntgen-Computer- oder die Magnetresonanz-Tomographie, erlauben es inzwischen, Hirnstrukturen mit einer Auflösung im Millimeter-Bereich darzustellen. Aussagen über funktionelle Hirnzustände werden unter anderem möglich durch moderne Analysemethoden der Elektrophysiologie, die durch Messung der elektrischen Gehirnaktivität mittels des Elektroenzephalogramms (EEG) eine genaue dreidimensionale Lokalisation aktivierter Neuronenverbände im Gehirn ermöglichen. Neuerdings steht hierzu auch das Magnetoenzephalogramm (MEG) zur Verfügung. Dabei werden die extrem schwachen von den Nervenzellen des Gehirns erzeugten Biomagnetfelder erfasst und zur millimetergenauen Lokalisation von Hirnaktivitäten genutzt.

Entschlüsselung in Sekundenschnelle
Ein wesentlicher Vorteil von EEG und MEG ist ihre hohe zeitliche Auflösung, die das Verhalten elektrisch kommunizierender Nervenzellverbände quasi 'online' zu verfolgen erlaubt. Dies ist von entscheidender Bedeutung bei der Untersuchung neurobiologischer Grundlagen der Verarbeitung gesprochener Sprache, da der kontinuierliche Strom akustischer Eindrücke aus der Umwelt vom Gehirn schnell verarbeitet werden muss. In nur einer halben Sekunde entschlüsselt das Gehirn zum Beispiel Laute, konstruiert eine grammatische Struktur, erkennt Wörter und interpretiert das Gehörte. EEG und MEG erlauben, diese Prozesse in der Hirnrinde des Menschen mit adäquater zeitlicher Auflösung, das heisst mit einer Genauigkeit im Bereich von Millisekunden, nicht-invasiv zu verfolgen. Hierzu zählt insbesondere die Ableitung akustisch hervorgerufener („evozierter“) Potentiale (AEP), bei denen spezifische Reizantworten auf akustische Reize aus dem Hintergrunds-EEG durch computergesteuerte Mittelungsverfahren herausgearbeitet werden. Dabei konnten Antwortkomponenten für alle Ebenen der Sprachverarbeitung, so zum Beispiel phonematische, syntaktische und auch semantische Aspekte, identifiziert werden.

Eine in der Linguistik lange Zeit diskutierte Frage war etwa, ob beim Sprachverstehen erst semantische oder erst syntaktische Aspekte verarbeitet werden. Dies wurde von Angela Friederici vom Max-Planck-Institut für neuropsychologische Forschung in Leipzig untersucht, die Probanden Sätze vorspielte, die entweder sowohl semantisch wie auch syntaktisch korrekt sind, wie „Das Kind wurde belohnt“, oder semantisch („Das Auto wurde belohnt“) beziehungsweise syntaktisch („Das Kind wurde in belohnt“) fehlerhaft sind.



Ableitung von Gehirnströmen an der Kopfhaut (EEG)


"Das Auto wurde belohnt"
Dabei fand sich bei syntaktisch falschen Sätzen nach ca. 200 Millisekunden ein spezielles Hirnpotential mit der Bezeichnung ELAN, „Early Left Anterior Negativity“, das im linken Stirnhirn generiert wird. Bei semantischen Verstößen findet sich mit einer Latenz von etwa 400 Millisekunden ein negatives EEG-Potential („N400“). Nach ca. 600 Millisekunden lässt sich bei syntaktisch inkorrekten Sätzen zusätzlich ein positives EEG-Potential („P600“) ableiten, wahrscheinlich als elektrophysiologisches Korrelat von Reanalyse und Fehlerkorrektur. Während N400 und P600 mit bewusster Sprachverarbeitung korrelieren, ist die ELAN automatisiert und bewusster Kontrolle entzogen. Auch wenn Probanden auf syntaktische Fehler nicht reagieren sollen, ist dieses Potential ableitbar, allerdings – wie es scheint – nur bei Probanden, deren Muttersprache untersucht wird. Auch bei sehr guten Zweitsprachlern findet sie sich nicht. Dieser Befund deutet darauf hin, dass bei ihnen die Grammatik der Fremdsprache nicht automatisiert ist.

Mehrere Studien aus der Arbeitsgruppe Neurophysik am UKBF verdeutlichen weitere Möglichkeiten, Aspekte der bewussten und vorbewussten Sprach- und Musikverarbeitung durch elektrophysiologische Ableitungen besser zu verstehen. Dabei wurde unter anderem untersucht: (1.) inwieweit die Hirnleistung, einzelne Reize (Vokale, Dreiklänge) Stimulus-Kategorien zu zuordnen, durch das EEG objektiv nachvollziehbar ist; (2.) inwieweit die daran beteiligten neuronalen Prozesse für die beiden akustischen Domänen der Sprach- bzw. Musikverarbeitung parallel organisiert sind; (3.) inwieweit hirnphysiologische Parameter mit der bewussten Unterscheidung zwischen akustischen Reizen aus verschiedenen Kategorien korrelieren; und schließlich (4.) ob sich ein neuronales Korrelat für die Besonderheiten der Wahrnehmung „selbstgesprochener Sprache“ darstellen lässt.

Dur versus Moll
Ausgangspunkt für alle diese Studien war, dass durch AEP nicht-invasiv die synchrone Aktivierung regionaler Neuronenverbände der menschlichen Hörrinde durch Vokale oder Dreiklänge nachgewiesen werden kann [1]. Diese stellen jeweils Elementareinheiten sprachlicher, beziehungsweise musikalischer Reize mit akustisch ähnlich komplexem Aufbau dar. Ihre digitale Synthese erlaubt selektive Manipulationen einzelner akustischer Aspekte, für die mittels AEP die Möglichkeit einer unterschiedlichen neuronalen Verarbeitung, etwa hinsichtlich einer kategoriellen Abstraktion, untersucht werden kann. Als Kategorisierung gilt hierbei die Zuordnung von akustisch variablen Reizen zu einer einheitlichen Klasse, beispielsweise das Erkennen des Vokals „a“, auch wenn er von Sprechern mit verschiedenen Stimmcharakteristika (Männer, Frauen, Kinder) geäußert wird, oder von Dur versus Moll Dreiklängen in verschiedenen Tonlagen. Für diese Untersuchungen wurde das Paradigma der sogenannten „mismatch negativity“ (MMN) des finnischen Psychologen Näätänen verwendet: Weichen in einer Folge von akustisch identischen „Standard“-Reizen einzelne Stimuli („Deviants“) in einer Reiz-Dimension ab (zum Beispiel Frequenz oder Intensität), so findet sich in der AEP-Differenzkurve („Deviants minus Standards“) zwischen 100 und 250 Millisekunden eine hirnelektrische Negativierung. Die Stärke dieses EEG-Potentials, das von Neuronen der Hörrinde im Schläfenlappen generiert wird, korreliert mit der physikalischen Stimulusdifferenz. Die MMN wird als neuronales Korrelat einer automatischen, das heisst Aufmerksamkeits-unabhängigen Erkennung der Abweichung eines Reizes von einer Gedächtnisschablone der Standardreize angesehen. MMN’s konnten bisher sowohl für Vokalkontraste (zum Beispiel „a“ versus „ä“) als auch für Dur/Moll-Kontraste in musikalischen Dreiklängen nachgewiesen werden.
Als Beispiel für die oben beschriebene Sprechervariabilität wurden nun durch digitale Vokalsynthese gezielt diejenigen akustischen Eigenschaften manipuliert, die die Stimmhöhe bestimmen (die sog. Grundfrequenz F0), beziehungsweise die Vokalkategorie festlegen (die sog. Oberton-Formanten F1/F2). Dabei konnte gezeigt werden, dass für Vokale trotz einer solchen Einführung von sprechertypischer Variabilität in den Standardreizen eine MMN erhalten bleibt, solange die Standardreize als einer Vokalkategorie (z.B. „a“) zugehörig und gegenüber dem abweichenden Reiz (z.B. „ä“) abgegrenzt wahrgenommen werden.

Parallele Ergebnisse fanden sich für musikalische „Elementarreize“: für musikalische Dreiklänge können dabei nicht nur die im westlichen Kulturkreis überlernten Dur/Moll-Kontraste (große/kleine Terz) eine MMN hervorrufen, sondern auch Mehrklänge mit regelhafter, aber „atonaler“ Intervallschichtung (z.B. Tritonus-Quarte). Dabei konnte gezeigt werden, dass diese MMNs sogar nach einer zufälligen Tonarten-Modulation der Standardreize, analog zur sprecherabhängigen Variation der Stimmlage, nachweisbar sind. Eine solche Dreiklangs-MMN spiegelt dabei das neuronale Korrelat für die Kategoriebildung 'Dur versus Moll', unabhängig von der Realisierung in einer bestimmten Tonart, wider. Während sich eine späte hirnelektrische Positivierung (bei 600 ms) nur bei bewusster Wahrnehmung der Abweichung in der Dreiklangs-Kategorie zeigte, fand sich demgegenüber frühere MMN (um 200 ms) bemerkenswerterweise auch dann, wenn die entsprechenden kategoriellen Abweichungen nicht bewusst erkannt werden konnten [2].
Für Sprach- wie auch Musikelemente kann die Hörrinde also automatisch aus akustisch variablen Reizen eine Standard-Gedächtnisschablone extrahieren. Diese Befunde stützen Theorien der Vokalwahrnehmung, die nicht die absolute Lage, sondern das Verhältnis der einzelnen Formanten zueinander als Charakteristikum eines Vokales ansehen, so dass auch bei unterschiedlich großen Vokaltrakten, von Kindern bis hin zu Erwachsenen, ein Vokal kategoriell eindeutig identifiziert werden kann (ein Phänomen, das als „Sprecher-Normalisierung“ bezeichnet wird). Für die Verarbeitung des Kultur-Produkts „musikalischer Dreiklang“, das auf einem charakteristischen Verhältnis einzelner Tonhöhen beruht, wird vermutlich ebenfalls dieser phylogenetisch alte, das heisst in der Evolution entwickelte, Mechanismus genutzt.
Die Generierung der MMN belegt ferner, dass das Gehirn schon 200 Millisekunden nach Erklingen eines Dreiklangs über eine kategorielle Information verfügt, und zwar bezüglich des Auftretens einer harmonischen Modulation. Diese neuronale Information wird dem Hörer zwar nicht notwendig bewusst, könnte jedoch gerade kognitiv nicht reflektierbare, zum Beispiel emotionale Reaktionen auf Musik beeinflussen.



Foto: Ausserhofer


Harmonische Modulation
In diesem Zusammenhang interessant sind auch Untersuchungen von Henning Scheich, der entsprechende Korrelate der Kategoriebildung in der Hörrinde von Mäusen fand. Die Fähigkeit zur Klassen- oder Kategoriebildung scheint also phylogenetisch schon lange vor dem Menschen angelegt zu sein. Sie ist vorsprachlich und nicht an bewusste Kognition gekoppelt.

Gegenüber der Verarbeitung von Sprachreizen aus der sozialen Umgebung stellt das Hören der eigenen Stimme einen interessanten Sonderfall dar. In Zusammenarbeit mit der Hirnforschungsgruppe um Riitta Hari in Espoo, Finnland, wurde hierzu die unterschiedliche Verarbeitung von Vokalen beim Hören der eigenen Stimme im Vergleich zu einer passiven Präsentation des Gesprochenen mittels einer Tonbandwiedergabe analysiert [3,4]. Es zeigte sich, dass der Sprechakt zu einer veränderten Verarbeitung der durch ihn bewirkten akustischen Reize, der „Reafferenz“, führt. Dies entspricht dem durch den Physiologen Erich von Holst bereits vor einem halben Jahrhundert formulierten „Reafferenzprinzip“, welches eine Rückwirkung motorischer Aktionen auf die durch sie ausgelösten Sinneswahrnehmungen beschreibt. Das MEG-Korrelat für diesen, mittels einer „Efferenzkopie“ der Sprechmotorik bewirkten Effekt bestand in einer links-hemisphärisch betonten Verzögerung einer frühen Antwortkomponente des auditorisch evozierten Feldes. Auch die automatische MMN-Reaktion auf abweichende Sprachlaute wurde beim eigenen Sprechen einzelner abweichender Vokale drastisch reduziert. Die Verarbeitung von selbstgesprochener Sprache wird also normalerweise in der sprachdominanten Hirnrinde „gedämpft“. Dieses MEG-Paradigma ermöglicht somit erstmals nicht-invasiv, interferenzfrei und mit einer angemessen hohen Zeitauflösung Prinzipien der sensomotorischen Integration im Sprechvorgang zu untersuchen.

Das Gehirn weiß mehr
Zusammengenommen zeigen diese Studien, dass die menschliche Hörrinde Vokale und musikalische Dreiklänge automatisch, das heisst ohne bewusste Aufmerksamkeitszuwendung, kategoriell klassifizieren kann. Für Vokale ermöglicht dieser Prozess, dass auch bei unterschiedlichen Sprechern mit verschiedenen Stimmlagen, von Kindern bis hin zu Erwachsenen, ein Vokal eindeutig erkannt werden kann. Interessanterweise zeigte sich daneben, dass, auch wenn das Gehirn harmonische Dreiklangsmodulationen automatisch entdecken kann, diese Information nicht notwendig bewusst werden muss. So „weiß“ unser Gehirn mehr, als wir bewusst aussagen können. Derartig unbewusste Informationen könnten Affekt-Modulationen durch Musik begründen, die wir uns kognitiv nicht ableiten können.
Auch die Verarbeitung der beim eigenen Sprechen „selbst-produzierten“ Laute lässt sich mittels MEG-Messungen näher charakterisieren: Insbesondere in der sprachdominanten linken Hirnhälfte wird die Vokalverarbeitung der Hörrinde durch den Sprechakt modifiziert. Diese Wechselwirkung zwischen Sprechen und Hören kann bei Aphasikern, Stotterern und auditorisch halluzinierenden Schizophrenen gestört sein und kann zukünftig mittels der Magnetoencephalographie nicht-invasiv und mit einer angemessen hohen Zeitauflösung untersucht werden.




Literaturverzeichnis

[1] Neuloh G, Curio G. Auditorisch evozierte EEG-Potentiale als Index für cerebrale Musikverarbeitung. 41-60. In: Musikpädagogische Forschungsberichte 1995. Hrsg.: Gembris H, Kraemer R-D, Maas G. Reihe: Forum Musikpädagogik (Band 21). Wiener, Augsburg (1996).

[2] Neuloh G, Curio G. EEG-Korrelate bewusster und nicht-bewusster Verarbeitung von Musikreizen. 451-468. In: Selbst und Gehirn. Hrsg.: Newen A, Vogeley K. mentis Verlag, Paderborn (2000).

[3] Curio G, Neuloh G, Numminnen J, Jousmäki V, Hari R. Speaking modifies voice-evoked activity in the human auditory cortex. Human Brain Mapping (9) 183-191 (2000).

[4] Numminen J, Curio G. Differential effects of overt, covert and replayed speech on vowel-evoked responses of the human auditory cortex. Neuroscience Letters (272) 29-32 (1999).