Phonem, Phon, Allophon

Eine der griffigsten Definitionen von Phon und Phonem habe ich gleich zu Beginn des Studiums gehört, in meiner allerersten Veranstaltung überhaupt („Einführung in die synchrone Sprachwissenschaft anhand der deutschen Gegenwartssprache“). Sie lautet:

Ein Phonem ist die kleinste bedeutungsunterscheidende Einheit auf der Ebene der Langue (des Sprachsystems).

Ein Phon ist die kleinste bedeutungsunterscheidende Einheit auf der Ebene der Parole (der tatsächlich statthabenden Rede).

Alles andere, Allophon, Realisierung, Opposition und der ganze Rest, folgen logisch aus dieser Bestimmung. Das ganze Studium bin ich immer gut gefahren damit, und wahrscheinlich würde ich sie immer noch unterschreiben, wenn ich nicht eines Tages selbst mit der Aufgabe betraut worden wäre, ein Einführungsseminar zu unterrichten.

Da dämmerte mir: Irgend etwas konnte nicht richtig sein. Die Definition besagt, daß Phone echte Sprachlaute sind, wie sie in der Wirklichkeit begegnen, die gehört werden, gemessen und zerlegt werden können, und die, jeweils für sich, einen zugrundeliegenden Lautplan, eine Art Lautvorschrift befolgen oder realisieren, nämlich das der Regelebene angehörende Phonem. Das Phonem kann man weder hören noch messen noch zerlegen. Es existiert nur als (vom Linguisten erschließbare) Regel, deren Anwendungsergebnisse wiederum die Phone sind. So weit so klar.

Dann ist da aber noch die Sache mit der Allophonie. In allen Sprachen (in manchen öfter und komplizierter, in anderen weniger und einfacher) stößt man auf das Phänomen, daß manche Phoneme nicht ein, sondern gleich mehrere Phone festlegen, und zwar je nach dem, in welchem Kontext anderer Phoneme das fragliche Phonem realisiert werden soll: Sprachlaute beeinflussen einander, und zwar tun sie das in regelmäßiger Weise. Man versäumt eine wichtige Verallgemeinerung, wenn man zwei Laute, die auf regelmäßige Weise miteinander korrespondieren, als zwei unabhängige Laute auffaßt. Tatsächlich sind sie schicksalhaft so eng miteinander verknüpft, daß man sie besser als zwei Erscheinungsformen desselben zugrundeliegenden Dings ansieht. Drei Illustrationen dazu, zwei aus einem anderen Bereich als dem der Sprachwissenschaft, eines aus der deutschen Standardsprache:
Die Uniformen des Zugbegleitpersonals der Deutschen Bundesbahn hat zwei klar geschiedene Formen, eine die aus Blazer, Hose und einem schirmlosen Hütchen besteht, eine andere mit Jacket, Hose und einer Schirmmütze als Hauptzier. Es wäre nun ziemlich ungeschickt, davon zu sprechen, daß die DB einfach zwei verschiedene Uniformen hat; insbesondere könnte man mit einer solchen Beschreibung den Sinn von zwei Uniformen gegenüber einer einzigen Uniform nicht erfassen. Bei genauerem Hinsehen fällt aber eine bestimmte nichtzufällige Verteilung auf: Weibliche Angestellte tragen das Hütchen, männliche die Schirmmütze. Das heißt, welche der beiden Uniformen erscheint, hängt vom Geschlecht dessen ab, der sie trägt. (Natürlich könnte es auch andersherum sein und das Geschlecht von der verwendeten Uniform abhängen; in der Humanbiologie ist das der eher unwahrscheinliche Fall, der aber in der Linguistik sorgfältig geprüft werden muß.) Es ist nun zweckmäßig, nur von einer einzigen DB-Uniform zu sprechen, deren Erscheinungsbild in voraussagbarer Weise variiert: Das Mützchen kommt auf Frauen-, die Mütze auf Männerhäuptern vor; wo das eine vorkommt, kommt das andere nicht vor und umgekehrt. Eine solche Distribution (Verteilung) zweier Erscheinungsformen desselben „Urdingens“ nennt man komplementär.
Zweites Beispiel. Die Buchstaben des Lateinischen Standardalphabets erscheinen immer in einer von genau zwei Formen, die man Groß- bzw. Kleinbuchstaben nennt. Obwohl das so ist, spricht man immer nur von einem einzigen Buchstaben, sagt also etwa, das Alphabet habe 26 Buchstaben, nicht ihrer 52, undsoweiter. In phonologischen Termini würde man für jeden Buchstaben von einem einzigen Phonem reden, das zwei Realisierungen hat, einmal als Klein- ein andermal als Großbuchstabe. Wo welche Form des Buchstabens erscheint, ist eine Frage der jeweiligen Orthographie und (mehr oder weniger) genau geregelt. Es gibt eine Menge von Kontexten für Großbuchstaben (Anfang von Eigennamen, Satzanfang, nie außerhalb vom Wortanfang etc) und eine zweite Menge von Kontexten für Kleinbuchstaben, und wenn die DUDEN-Redaktion ordentlich gearbeitet hat, überschneiden sich die zwei Mengen nicht. Auch die Groß- und Kleinbuchstaben des Lateinischen Alphabets sind komplementär distribuiert. Wo ein Großbuchstabe steht, steht kein Kleinbuchstabe, und umgekehrt.
In natürlichen Sprachen ist es nun sehr häufig der Fall, daß bestimmte Laute sich verhalten wie DB-Uniformen und Buchstabenformen, nicht, daß sie Mützchen tragen, sondern daß sie komplementär distribuiert sind.
An dieser Stelle kommt in allen Einführungen zum Thema unweigerlich die Sprache auf den deutschen ch-Laut. Dieser Text ist keine Ausnahme.
Der Laut am Ende des deutschen Worts Bach und der Laut am Ende des deutschen Worts ich kommen jeweils in genau dem Kontext vor, in dem der andere nicht vorkommt. Der Bach-Laut kommt nur nach den Vokalen a, o und u vor; der ich-Laut in allen anderen Kontexten vor. Ebenso wie man von einer DB-Uniform und einem Buchstaben sprechen kann, kann man das ch in Bach und vom ch in ich als ein einziges Dingens auffassen, das noch kein Laut ist, das überhaupt nichts hör- oder meßbares ist, aber in Abhängigkeit von seiner Position durch die beiden Erscheinungsformen ch-in-Bach und ch-in-ich als konkreter Sprachlaut realisiert wird. Das fragliche Element ist nicht so sehr dadurch charakterisiert, was es ist oder wie es realisiert wird, sondern vor allem dadurch, was es nicht ist, und daß es sich von anderen Elementen und ihren jeweiligen Realisierungen unterscheidet. Man könnte dem Ding auch eine Nummer geben und es grün anmalen. Man könnte es natürlich auch rot anmalen. Wichtig ist nicht, welche Nummer, oder welche Farbe, sondern nur, daß es anders ist als die anderen, in linguistischer Sprechweise: Daß es zu anderen Elementen in Opposition steht.
Opposition ist das genaue Gegenteil der komplementären Verteilung. Zwei Elemente stehen in Opposition zueinander, wenn sie im selben Kontext vorkommen können und das Auftreten des einen und nicht des anderen, mit einem Wort, der Unterschied zwischen ihnen bedeutsam ist. So ist der Unterschied zwischen den im Deutschen Standardalphabet durch und repräsentierten /k/ und /t/ bedeutsam, da er Bedeutungen wie die von Kasse und Tasse unterscheidet. /k/ und /t/ kommen hier im selben Kontext /__ase/ vor. Natürlich heißt das nicht, daß sie im selben Kontext gleichzeitig vorkommen und sich auf die Füße treten, sondern daß sie dort ein Gegensatzpaar bilden: Kasse vs Tasse. Zwei Ketten von Elementen, die sich wie Kasse/Tasse nur in einer (unteilbaren) Stelle unterscheiden, nennt man übrigens ein Minimalpaar.
Elemente, die Bedeutungen unterscheiden (also im selben Kontext vorkommen, also in Opposition stehen), nennt man Phoneme. Wobei wir bei Teil eins der eingangs erwähnten Definition angekommen sind.
Wie verhält es sich nun mit dem Bach-Laut und dem ich-Laut? Sie kommen in getrennten Kontexten vor, stehen also nicht in Opposition. Ihr Auftreten ist vorhersagbar, weswegen sie nicht bedeutungsunterscheidend sein können. Mit anderen Worten, es gibt im Deutschen keine zwei Wörter unterschiedlicher Bedeutung, die sich nur durch die Differenz von ich-Laut einerseits und Bach-Laut andererseits unterschieden. Diese bilden kein Minimalpaar. Wohl aber bilden sie gemeinsam, bzw bildet das Phonem, das sie beide je nach Kontext realisieren, Minimalpaare mit anderen, quasi unbeteiligten Elementen: Nacht und nackt (Bach-Laut gegen /k/, die Schreibung ist irrelevant); nüchtern und Nüstern (ich-Laut gegen /s/). Diese Erscheinung nennt man Allophonie, die zwei (oder mehr) durch Kontext bedingten Realisierungen eines einzigen Phonems Allophone.
Und jetzt zum eigentlichen Problem. Phoneme sind abstrakte Einheiten, die nur über ihre Realisierungen in Erscheinung treten. Diese Realisierungen sind die Phone, bzw die Allophone. Wenn man diese nun als konkrete, beobachtbare, meßbare, durch Sprecher produzierte Lautereignisse auffaßt (also quasi im Sinne von Verwirklichungen platonischer Ideen), kommt man in gewisse Schwierigkeiten, die Allophonie betreffend. Denn: Keine zwei Realisierungen desselben Phonems sind jemals gleich. Nicht nur die Sprecher unterscheiden sich in winzigen anatomischen und artikulatorischen Details; auch keine zwei von einem einzigen Sprecher nacheinander produzierten Realisierten eines Phonems sind wirklich identisch. Das t in Tasse kann ein bißchen mehr oder weniger stimmhaft, ein bißchen mehr oder weniger aspiriert, ein bißchen länger odr kürzer, ein bißchen dentaler, ein bißchen alveolarer artikuliert sein. Stets gibt es winzige Abweichungen. Alle diese winzigen Unterschiede sind natürlich nicht signifikant, sie verändern nicht die Bedeutung. Aber sie ließen sich schön praktisch als Realisierungen eines einzigen Phonems /t/ zusammenfassen. Also sind es Allophone von /t/?
Dann hätte aber nicht nur /t/, sondern jedes Phonem unendlich viele Allophone; und eine regelmäßige Verteilung wie man sie beim ich-Laut und beim Bach-Laut beobachtet, ginge in einem Wust von unsystematischer, sprunghafter Varianz verloren. Das ist ein bißchen so, als müßte man jedes lose Fädchen, jeden Kekskrümel, jede Sitzfalte und jeden Dreckspritzer als eigene Ausgabe der DB-Uniform auffassen, gleichberechtigt mit den weiblichen und männlichen Formen. Oder als müßten wir jeden verrückten Einfall irgendeines Schriftgraphikers, hier ein bißchen mehr Strichstärke, hier größere Punzen, dort kleinere Serifen, neben Versalien und Kleinbuchstaben als je eigenständige Buchstabenformen ansprechen. Wir könnten dann die Generalisierung, daß es prinzipiell zwei Formen gibt, nicht mehr aufrechterhalten.
Daher können Allophone noch nicht die tatsächlichen Realisierungen ihres Phonems, noch keine wirklichen, meß- und hörbaren Schallereignisse sein. Eine zweite abstrakte Ebene muß her, zwischen Phonem und Laut, eine Ebene, auf der die systematischen Zuordnungen zwischen Allophonen und Phonemen vorgenommen werden. Die tatsächlichen Realisierungen lassen sich ja wieder den Vertretern der systematischen Varianz zuordnen, beide Uniformformen haben ihre je eigenen Realisierungen in Gestalt von individuell verschmutzten, abgetragenen oder sonstwie veränderten Kleidungsstücken, dennoch bleiben sie als männliche oder weibliche Form erkennbar; der Bach-Laut und der ich-Laut haben je für sich ihre eigenen Winzvarianzen, ohne deshalb aufzuhören, Bach- oder ich-Laut zu sein. Die Varianz der tatsächlichen Laute wimmelt um das Zentrum dessen herum, was die Allophone artikulatorisch vorgeben:
Das Phonem ist die kleinste bedetungsunterscheidende Einheit auf der Ebene des Sprachsystems. Es wird realisiert durch Allophone, in denen sich eine systematische Varianz manifestiert. Allophone schließlich werden durch Lautereignisse realisiert, die zufälligen winzigen Abweichungen unterworfen sind.

Orthographisches (2) S-Laute des Deutschen und ihre Schreibung

Und nun wird es etwas schwieriger. Wie in jeder Sprache, so gibt es auch im Deutschen Eigenschaften von Lauten, die relevant sind, da mit ihnen Wörter unterschieden werden, und solche, die irrelevant sind, weil ihr Vorhandensein oder Fehlen ein Wort vielleicht verfremdet aber nicht in ein anderes Wort oder ein Unwort überführt. Eine Eigenschaft der ersten Art ist die Stimmhaftigkeit, deren Fehlen oder Vorhandensein Wörter unterscheidet: was beginnt mit einem stimmhaften, Faß mit einem stimmlosen Laut, und es ist die Stimmhaftigkeit allein, die die beiden Wörter voneinander unterscheidet.
Ein Laut, der die Kraft hat, Bedeutungen zu unterscheiden, heißt Phon (bzw. Allophon); er repräsentiert eine abstrakte Einheit, die die Linguisten Phonem nennen, dies aber nur der Genauigkeit halber.
Für unsere Untersuchung ist nun wichtig, daß es Stellungen gibt (vor oder nach anderen Lauten, am Wortanfang, oder -ende, zwischen Vokalen etc), in denen nur Laute mit ganz bestimmten Merkmalen vorkommen können, so daß in diesen Stellungen die unterscheidende Kraft eines bestimmten Merkmals gleichsam aufgehoben scheint: So steht im Deutschen am Wortende immer nur ein stimmloser Laut, niemals ein stimmhafter. Dies führt dazu, daß dort die Stimmhaftigkeit nie für die Bedeutungsunterscheidung relevant sein kann, denn dazu müßten ja beide Laute, der stimmhafte wie der stimmlose an derselben Stelle erscheinen dürfen. Also gibt es eine Menge Wörter, die sich im An- und Inlaut durch Stimmhaftigkeit unterscheiden, wie z. B. Gasse/Kasse, rauben/Raupen, Waden/waten, kein Wortpaar jedoch, dessen Glieder sich voneinander einzig und allein im Auslaut durch dieses Merkmal unterschieden. Merkmale wie Stimmhaftigkeit, die zumindest in manchen Stellungen Wörter voneinander unterscheiden, heißen distinktive Merkmale.
Im Deutschen gibt es zwei S-Laute: einen stimmhaften wie in reisen und einen stimmlosen, wie in reißen. Die Stimmhaftigkeit ist beim S-Laut, wie bei fast allen deutschen Konsonanten, distinktiv. Die Distinktion ist jedoch aufgehoben im Wortanlaut, wo (hochsprachlich) nur stimmhaftes s erscheint, im Wortauslaut, wo (gleich den anderen Konsonanten) nur der stimmlose Laut vorkommt. Tatsächlich ist sie nur in einem einzigen Kontext distinktiv: intervokalisch nach einem langen Vokal oder Diphthong (Doppelvokal). Und hier kommt nun das ß ins Spiel. Das Drama der beiden S-Laute ist nämlich, daß es nicht wie bei den anderen Stimmhaft-stimmlos-Paaren zwei Schriftzeichen gibt, die, unabhängig von Stellung und Unterscheidungsvermögen den stimmhaften und den stimmlosen Laut bezeichnen, sondern es gibt ihrer drei, und in die Entscheidung, wo s, ß oder ss zu schreiben ist, fließen immer Betrachtungen nicht nur der Stimmhaftigkeit, sondern auch der Vokallänge und der Stellung mit ein. Um die Sache noch weiter zu verkomplizieren kann einer der drei Zeichen, nämlich s, je nach Stellung sowohl den stimmhaften als auch den stimmlosen Laut schreiben: Sonne (stimmhaft, Anlaut), Geheimnis (stimmlos, Auslaut); das ist auch gar nicht dumm, wenn man bedenkt, daß die Stellung allein schon bestimmt, welcher Laut auftritt; also ist die Information über Stimmhaftigkeit im Anlaut irrelevant, da dort sowieso nur der stimmhafte Laut vorkommt, und ebenso irrelevant im Auslaut, weil dort nur der stimmlose Laut auftritt. Der einzige Kontext, in dem eine Unterscheidung im Schriftzeichen sinnvoll ist, ist intervokalisch nach Langvokal oder Diphthong. Diese Unterscheidung leistete und leistet nach wie vor das ß, das einen stimmlosen S-Laut in intervokalischer Stellung nach Langvokal oder Diphthong schreibt: reisen, aber reißen.
Nun wären die Verhältnisse nach Langvokal beschrieben, was noch einfach war. Wie aber schreibt man nun einem S-Laut nach Kurzvokal? Nach Kurzvokal erscheint intervokalisch im (Hoch-) Deutschen immer nur der stimmlose S-Laut. Mit welchem Zeichen soll man ihn nun schreiben? Nicht mit ß – denn dieses steht ja nur nach Langvokal. Aber auch nicht mit s – denn das dient ja schon der Schreibung des stimmhaften Lauts, ebenfalls nach Langvokal. s und ß bezeichnen also immer auch die Länge des vorangehenden Vokals. Mit anderen Worten, die Folge Vokal-s-Vokal enthält immer einen stimmhaften S-Laut nach Langvokal, die Folge Vokal-ß-Vokal immer einen stimmlosen S-Laut nach Langvokal.
An dieser Stelle ist ein kleiner Ausflug vonnöten. Es gibt nun im Deutschen generell keine eindeutige Schreibung zur Unterscheidung von Lang- und Kurzvokalen. Ein mit einfachem Vokalzeichen geschriebener Laut kann lang oder kurz sein, weswegen zur Kennzeichnung eines kurzen Vokals der folgende Konsonant verdoppelt wird. Umgekehrt gibt es eine Reihe von Schreibungen für lange Vokale, die gleichsam nicht das Vokalzeichen selbst verändern, oder an ihm ausgeführt werden: Dehnungs-h, Doppelvokal und Dehnungs-e. Die Verdoppelung des nachfolgenden Konsonanten zur Markierung der Vokalkürze gibt es natürlich auch beim s. Und so schreibt man -ss- zur Bezeichnung der Vokalkürze; daß dieser Laut stimmlos sein muß, folgt aus der Stellung (nach Kurzvokal hochsprachlich nur stimmloses s!). Man kann nicht Mase schreiben, weil dort das s stimmhaft und der Vokal lang ist. Man kann auch nicht Maße schreiben, weil dort zwar der S-Laut stimmlos, der Vokal aber immer noch lang ist. Also schreibt man Masse/Maße/Masern. Das ist nun schon in nuce die Schreibregel nach neuer Rechtschreibung. So viel Erklärungsaufwand ist also schon für die neue Rechtschreibung nötig, wenn man die Hintergründe verstehen will. Nach alter Rechtschreibung gab es eine einschränkende Zusatzregel. Sie ist sehr einfach und lautet: Gerät ss im Zuge einer Beugung oder Ableitung an den rechten Silbenrand, verwandelt es sich in ß. Das ist alles. Zu schwierig? Das ss in müssen etwa verwandelt sich in der Wortform mußt oder muß in ß, ebenso wie in müßt und gemußt. Das ss in küssen verwandelt sich im Singular Kuß in ß. Doch Vorsicht: Wenn es keine Wortform gibt, in der überhaupt jemals ss geschrieben wird, dann ist die Regel null und nichtig. Sie gilt nur als Beziehung zwischen Wortformen mit intervokalischem ss und Wortformen, in denen dieses ss nicht mehr intervokalisch ist, sondern am rechten Silbenrand steht. Daher schreibt man nicht *wenigess, *Resst, *Rosst oder *Rasst (oder *wenigeß, *Reßt *Roßt, *Raßt), weil es zu diesen keine verwandten Wortformen oder Ableitungen mit S-Laut in intervokalischer Stellung gibt.
Aber leider leider … gibt es Ausnahmen. Sie betreffen vor allem den Auslaut von Wortstämmen mit Langvokal. Hier ist die Schreibung einfach nicht voraussagbar. Laut Regel müßte man Apfelmuß schreiben, da Langvokal. Natürlich ist es überflüssig, weil im Auslaut keine stimmhaften Laute vorkommen, dennoch wäre es systematischer. Dasselbe gilt für aus (aber man schreibt außen, weil die Stellung relevant ist!), und auch für Eis. Für Wörter wie Maus kann argumentiert werden, daß die verwandten Wortformen (Mäuse) einen stimmhaften Laut haben. Und umgekehrt ist die Schreibung Geheimnis regelwidrig, weil es eine korrespondierende Wortform mit ss gibt (Geheimnisses, Geheimnisse).
Der einzige Ausweg aus dem Dilemma wäre eine konsequente Markierung von Lang- und Kurzvokalen und entweder die Schreibung von s für jeden stimmhaften Laut und nur für diesen, und von ß für jeden stimmlosen Laut; oder aber die Einführung eines neuen Zeichens für den stimmhaften Laut und die Schreibung von s für den stimmlosen (dies würde auch dem Umstand Rechnung tragen, daß s in den allermeisten Sprachen einen stimmlosen Laut, z den entsprechenden stimmhaften Laut bezeichnet). Eine die Tradition und das vertraute Schriftbild halbwegs wahrende Kennzeichnung von Lang- bzw. Kurzvokalen ist aber unmöglich, wie wir unten sehen werden.

Orthographisches (1): Sprachregeln und Schreibregeln

Orthographisches (3): Von Schwierigkeiten & Reformen