Wozu Korpuslinguistik?

Vor einiger Zeit habe ich mich hier kurz mit der Frage auseinandergesetzt, warum man sich mit „Konstruktionsgrammtik“ beschäftige. Heute wurde ich ein wenig ungläubig angeschaut, als ich in einem Nebensatz erwähnte, dass quantitative, statistische Verfahren inkl. unterschiedlicher Bildgebung durchaus nützlich sind, um dem einzelnen Sprachbenutzer unbewusst bleibende sprachliche Strukturen sichtbar zu machen, die sich erst jenseits der von ihm täglich gebrauchten Textmenge erschließen. So könne man u.a. Autorenstile herausarbeiten, die bspw. in der Forensischen Linguistik für das Profiling eingesetzt werden. Um dies nachvollziehbarer zu machen, zeige ich in einem kleinen Selbstversuch, wie so ein Stil, oder besser mögliche einzelne Stilmerkmale, mit korpuslinguistischen Methoden herausgearbeitet werden können.

Dabei bin ich (leider) angewiesen auf einen handelsüblichen PC mit dem Betriebssystem Windows 7 und einer leider recht mageren Ausstattung von 3GB RAM und einer für Bildgebung nicht optimalen ATI-Grafikkarte bei dürftigen 2,6GHz eines Dual-Core-Prozessors. Ich werde bei der Berechnung daher einige Einschränkungen machen müssen, weise aber an den betreffenden Stellen darauf hin.

1. Das Korpus

Ohne Korpus, das heißt einer Sprachdatensammlung von authentischen Äußerungen, sollte in der gegenwärtigen Linguistik keine Untersuchung mehr auskommen. Dabei stellt sich abgesehen von der Ausgewogenheit und Repräsentativität des Korpus (je nach Untersuchungsziel) in bestimmten Bereichen die Frage, wie man diese Datensammlung überhaupt anlegen soll — zu denken ist an die gesprochene Sprache  oder große Teile der schriftlichen Quellen historischer Sprachstufen, die durch die Entwicklung der Schreibung und Orthographie nicht beliebig aufeinander abbildbar sind. Lassen wir diese Fälle aber zunächst außen vor, so können doch zumindest schriftsprachliche Texte seit dem beginnenden 20. Jahrhundert in ein Korpus eingebunden werden, das quantitative Untersuchungen ermöglicht,  deren Ergebnisse robust sind.

In diesem kleinen Versuch der Ermittlung eines „Autorenstils“ wähle ich ein kleines Korpus eigener Texte aus, bestehend aus insgesamt sieben Aufsätzen (I) und drei Rezensionen (II):

(I) „Eingreifendes Denken“; „Ordensritter ohne Ordensstaat“, „Fensterweihe und Fensterstreit“, „Ein Hamburger verbittet sich das Oberdeutsche“, „Es sey das Fewer in der Stadt“, „Die A[ssassinen] sollen aus Ägypten stammen“ und „Texte im Handlungsbereich der Religion“,

(II) Rezensionen zu Nicoline Hortzitz („Sprache der Judenfeindschaft“), Erik Margraf („Hochzeitspredigt der Frühen Neuzeit“) und Ekkehard Felder / Ingo Warnke („Semantische Kämpfe“ / „Diskurslinguistik“).

Das Korpus umfasst Texte, die zwischen 2006 und 2011 entstanden sind. Sie sind fachsprachlicher Natur und eindeutig zwei Textsorten zuzuweisen: Nämlich denen des ‚wissenschaftlichen Aufsatzes‘ und der ‚wissenschaftlichen Rezension‘.

Die Texte sind bereinigt von allen paratextuellen Bestandteilen (wie Literaturverzeichnisse, Inhaltsverzeichnisse, Fußnotenapparat, Adressen usw.).  Außerdem wurden formale Besonderheiten (automatische Silbentrennung, geschützte Umbrüche etc.) entfernt. Schließlich wurden die Texte zusammengeführt in einem einfachen Textdokument (z.B. im Texteditor).

Das Zählen der Tokens, also der Wörter in diesem Korpus, sollte man nicht einem beliebigen Officeprogramm überlassen. AntConc berechnet wesentlich präziser und hat darüber hinaus noch einige weitere Vorzüge, auf die ich gleich noch zu sprechen komme. Das Korpus jedenfalls hat einen Gesamtumfang von 57.420 Token (=Textwörter) bei 11.653 Types (=Wörter) — für unser kleines Beispiel mag das ausreichen, statistisch valide Ergebnisse erhält man allerdings erst ab einer Korpusgröße von über 1 Millionen Token, das sei der Vollständigkeit halber angemerkt.

2. Erste Schritte zur Analyse des Korpus

Man sollte nicht mit 23 verschiedenen Tools arbeiten, um sein Korpus aufzubereiten, in der Regel reichen dafür wenige Werkzeuge aus — immer abhängig vom Zweck der Analyse können dies aber unterschiedliche sein.

Für den Anfang empfehle ich das schon genannte AntConc und für die Bildgebung GraphViz, das unter Windows aber leider nur mit einigen Einschränkungen zur Verfügung steht.

2.1. Wortliste

Mit AntConc erstelle ich zunächst eine Wortliste, aus der ich nicht nur den genauen Umfang des Korpus, sondern auch bereits eine Rangfolge der häufigsten Wörter meines Untersuchungskorpus ermitteln kann. Nach den üblichen Verdächtigen auf den ersten Plätzen (Demonstrativpronomina wie „die“, „der“, „das“, Konjunktionen wie „und“, Präpositionen wie „in“, „im“ und „auf“ oder Verben wie „werden“ und „sein“) ist das erste Nomen im Korpus auf Platz  48 ein Eigenname mit einer Frequenz von 131 Nennungen: „Martina“. Das hat seinen Grund darin, dass ich einen Artikel in das Korpus aufgenommen habe, der sich mit der Martina Hugo von Langensteins aus dem 13. Jahrhundert auseinandersetzt, einer Heiligenlegende, in der der Name oft genannt wird. Das zweite Nomen ist „Fenster“ auf Platz 58  mit immerhin noch 97 Nennungen — es verdankt sich dem Artikel „Fensterweihe und Fensterstreit“, einer diskurslinguistischen Untersuchung zur Debatte um das Fenster von Gerhard Richter im Südquerhaus des Kölner Doms. (c) Derix Glasstudios GmbH & Co.KG, TaunussteinTypisch für die Textsorte hingegen ist der ‚relativ‘ geringe Anteil an Adjektiven: Das häufigste Adjektiv ist „deutlich“ (es wird hauptsächlich prädikativ gebraucht) mit 40 Nennungen auf Platz 136 der Wortliste.

Wie man vielleicht an diesen drei Beispielen sehen kann, dafür braucht man noch keine statistische Analyse, schlägt die Auswahl der Texte für das Korpus hier noch durch: Das häufige Auftreten etwa des Eigennamens „Martina“ und des Nomens „Fenster“ sprechen diesbezüglich eine eindeutige Sprache. Die Häufigkeit des Auftretens bestimmter Lexeme eignet sich also denkbar schlecht (und das sieht man auch an diesem kleinen Korpus) für die Ermittlung eines „Autorenstils“.

Nichtsdestotrotz kann man aber mit der Häufigkeit bestimmter Lexeme in einem Untersuchungskorpus zumindest mittels einer Wordcloud einen schönen Effekt erzielen, der in korpuslinguistisch motivierten Präsentationen gut beim Publikum ankommt, allerdings, wie wir gesehen haben, in der Sache wenig weiterhilft. Die Wordcloud hier wurde erstellt auf dem Portal http://www.wordle.net/create — „übliche“ deutsche Wörter (die obigen „Verdächtigen“) blendet das Tool auf Wunsch, wie hier, aus.

2.2. N-Gramme

Von der einfachen Wortliste gehen wir weiter zu den so genannten N-Grammen, also, einfach gesagt, regelmäßigen Verbindungen mehrerer Wörter, die in einem Korpus auftreten. Wer keine korpuslinguistischen Ambitionen hat, sollte unbedingt den NGram Viewer von Google kurz ausprobieren, um zu erleben, wie überzeugend die Daten (auch ohne genaue Verifizierbarkeit) sein können, die man aus solchen Wortverbindungen erheben kann. Allerdings sei nur der umsichtige Einsatz damit empfohlen, denn zum einen ist die genaue Datengrundlage nicht gesichert und  zum anderen sind durch die Art der Abfrage (im Moment) die Ergebnisse zu ungenau.

Diese N-Gramme können im Hinblick auf ihre Frequenz bereits einen Hinweis darauf liefern, ob ein Autor zu bestimmten sprachlichen Mustern greift, die dann auf einen bestimmten Stil deuten. Üblicherweise untersucht man in der Korpuslinguistik Bi- und Trigramme, also Verbindungen von zwei und drei Wörtern.

In unserem kleinen Korpus gibt AntConc 40.502 Bigramme (Types; Token: 56.644) und 51.679 Trigramme (Types; Token: 55.885) aus. Um die hohen Zahlen kurz zu erläutern: Die Trigramme „die Frage nach“ und „Frage nach dem“ aus dem Satz „Wichtig ist dabei die Frage nach dem Zusammenhang“  werden separat gezählt. Schauen wir uns die häufigsten N-Gramme an.

Die zehn häufigsten Bigramme (Frequenz in Klammern) in unserem Korpus sind:

01 „in der“ (277)
02 „auf die“ (126)
03 „in den“ (120)
04 „für die“ (118)
05 „und die“ (92)
06 „und der“ (78)
07 „mit der“ (76)
08 „mit dem“ (59)
09 „durch die“ (57)
10 „aus der“ (55)

Die zehn häufigsten Trigramme in unserem Korpus sind:

01 „in Bezug auf“ (16)
02 „Öffnung imaginärer Räume“ (16)
03 „der Katholischen Kirche“ (14)
04 „der Mitte des“ (14)
05 „über die Assassinen“ (14)
06 „Frage nach der“ (13)
07 „Mitte des Jahrhunderts“ (13)
08 „Bezug auf die“ (12)
09 „der Domäne Religion“ (11)
10 „in den Dom“ (11)

Von den genannten Bigrammen können wir uns auf den ersten Blick nicht viel erhoffen, in einer komplexen Analyse wären aber auch nicht nur die häufigsten Nennungen zu berücksichtigen. Allerdings taucht  auf Platz 17 ein Bigramm in unserem Korpus auf, welches ich gern von Hand nachträglich aus Texten entferne:

17 „vor allem“ (46)

Es ist mit einer Frequenz von 46 Nennungen recht auffällig und ich werde es hier für dieses kleine Beispiel weiter berücksichtigen. Bei den Trigrammen können wir thematisch begründbare Nennungen ausschließen. Die „Öffnung imaginärer Räume“ verweist auf den Aufsatz „Eingreifendes Denken“, auf ähnliche Art können wir ausschließen die Plätze 3, 5, 9 und 10. Übliche Formulierungen wie „in der Mitte des [13.] Jahrhunderts“ und damit die Trigramme auf den Plätzen 4 und 7 hier in Bezug auf die Martina können wir ebenfalls ignorieren. Unser Augenmerk sollten wir legen auf:

01 „Bezug auf“ (16)
06 „Frage nach der“ (13)
08 „Bezug auf die“ (12)

Schauen wir uns noch einmal die Bigramme an, dann wird auf den zweiten Blick im Kontrast deutlich, dass unter Umständen auch das Bigramm „auf die“ mit 126 Nennungen auf ein stilistisches Merkmal hinweisen könnte. Für die weitere Untersuchung nehmen wir folgende sprachlichen Muster auf:

„auf die“ (126)
„vor allem“ (46)
„Bezug auf“ (16)
„Frage nach der“ (13)
„Bezug auf die“ (12)

Auch N-Gramme, das sei abschließend zu diesem Komplex gesagt, eignen sich wunderbar, um bildgebend den Blick von den nackten Tabellen zu lenken. Das möchte ich mit dem Tool GraphViz noch kurz illustrieren. Den technischen Begrenzungen, die mir mein Arbeitsgerät hier setzt, muss ich mich allerdings unterwerfen: Ich werde nur die Trigramme auswerten können, die wenigstens drei Mal im Korpus auftreten. Das sind, um das an einigen Zahlen festzumachen, 712 der insgesamt gezählten 51.679 Types von Trigrammen und 2.764 von 55.885 Token.

Struktur des Untersuchungskorpus visualisiert mit GraphViz. Ermittelt wurde diese anhand einer Auswahl von Trigrammen. Verlinkt ist das skalierbare, vollständige PDF.Mit GraphViz ist es möglich, die sprachlichen Strukturen eines Korpus zu visualisieren auf der Basis der Verbindung von Lexemen. Allein auf der Basis der Gestalt dieser Strukturen können — entsprechende Erfahrung vorausgesetzt — erste Hypothesen gebildet werden. Auch wenn man diesen Schritt nicht tun möchte, so gilt auch wie für die obige Wordcloud: Statistisch valide Aussagen kann man anhand der visualisierten Struktur nicht machen, aber der Anblick ist interessant und beeindruckend.

2.3. Kollokationen

Mit der Analyse von Kollokationen geht man noch einen Schritt weiter als mit der Analyse von N-Grammen — man berücksichtigt nämlich nicht mehr die Linearität des Textes bei der Analyse und die vorgegebene Schreib- und Leserichtung oder eine bestimmte Wortstellung, die sich durch die grammatischen Anforderungen ergibt, sondern fragt nach dem gehäuften Auftreten von benachbarten Wörtern. Damit fasst man dann, um es an einem einfachen Beispiel zu sagen, etwa die Auftretenshäufigkeit der Bigramme „das Fenster“ und „Fenster das“ zusammen. Diese Kollokationen könnte man nun für jedes Wort des Untersuchungskorpus berechnen mit unterschiedlichen Reichweiten. Die Ergebnisse wären dann z.B. hinsichtlich der Frequenz und  der statistischen Signifikanz mit einem Referenzkorpus zu vergleichen, das werden wir aber hier aus Gründen der Anschaulichkeit nicht tun. Wir werden hier der Einfachheit halber anhand der Wortliste und der Häufigkeit bestimmter Bi- und Trigramme Hinweise auf interessante Kollokationen suchen. Bereits beim Blick auf die Wortliste sticht ein Wort ins Auge: „auch“. Mit 370 Nennungen erscheint es auf einem respektablen 17. Platz im Korpus.  Bezieht man seine Kollokate ein, die zwei Positionen nach links und zwei Positionen nach rechts erscheinen, fällt „sondern“ auf: Es rangiert in der Frequenz der Kollokate von „auch“ mit insgesamt 20 Nennungen auf Platz 11. Engen wir die Reichweite weiter ein (je eine Position nach links und rechts), wir sprechen dann von einer Kontaktstellung, finden wir für die Kombination von „sondern“ und „auch“ noch 16 Belege. Das entspricht Platz 8 unter den Kollokaten von „auch“, da wir nur Linksbesetzung vorfinden, sind das exakt die Belege, die als Bigramm „sondern auch“ in der Liste der Bigramme auf Position 107 geführt werden.  Für die exemplarische Untersuchung nehmen wir also neben den schon genannten Beispielen dieses auf:

„auf die“ (126)
„vor allem“ (46)
„Bezug auf“ (16)
„sondern auch“ (16)
„Frage nach der“ (13)
„Bezug auf die“ (12)

3. Statistische Auswertung

Die einfache Analyse des kleinen Untersuchungskorpus brachte einige auffällige Bi- und Trigramme und eine Kollokation ans Licht, die möglicherweise Hinweise auf den Autor der Texte dieses Korpus liefern können:

„auf die“ (126)
„vor allem“ (46)
„Bezug auf“ (16)
„sondern auch“ (16)
„Frage nach der“ (13)
„Bezug auf die“ (12)

Wir wollen nun prüfen, ob diese sprachlichen Muster in einem Vergleichskorpus ähnlich häufig auftreten wie in unserem kleinen Untersuchungskorpus. Dazu wählen wir das „DWDS-Kerncorpus“, ein Referenzkorpus des Digitalen Wörterbuchs der Deutschen Sprache des 20. Jahrhunderts (kurz DWDS), das im Moment (noch) in zwei Versionen genutzt werden kann (Retro DWDS; DWDS). Das „DWDS-Kerncorpus“ hat einen Umfang von 100.600.993 Token (=Textwörtern; ohne Satzzeichen und Zahlen) bei 2.224.542 Types (=Wörtern) in 79.830 Dokumenten. Es ist (geplant: gleichmäßig) geschichtet, das heißt, dass es unterschiedliche Arten von Texten aus unterschiedlichen Domänen berücksichtigt. Das sind: Gebrauchsliteratur, Belletristik, Wissenschaft und Zeitung. Im Bereich Wissenschaft, der uns hier interessiert, werden im Kerncorpus 24.371.647 Token (=Textwörter) gezählt.

Wir werden nun unsere Beispiele (allesamt Bi- oder Trigramme) in unserem Untersuchungskorpus (Korpus I) mit mit denen des Teilkorpus „Wissenschaft“ (Korpus II) aus dem „Kerncorpus“ vergleichen anhand des einfachen Chi-Quadrat-Tests und die Ergebnisse mit dem Log-likelihood-Wert überprüfen. Beide Werte können errechnet werden mittels diverser Hilfsmittel, die z.B. Noah Bubenhofer in seiner Einführung in die Korpuslinguistik anschaulich darstellt.

Im Chi-Quadrat-Test wird ermittelt, wie zufällig Schwankungen von bestimmten Wörtern (oder wie bei uns Bi- und Trigrammen im Vergleich) zweier Korpora sind. Da wir jeweils nur einen Wert in zwei Korpora abfragen, ist für unsere Analyse der so genannte Freiheitsgrad df=1. Als kritische Werte stehen damit für das ermittelte X² fest:

P = 0,05 / 3,84
P = 0,01 / 6,64
P = 0,001 / 10,83

Mit anderen Worten: Wenn der je ermittelte Wert von X² in unseren Beispielen 3,84 überschreitet, dann ist bei einem Signifikanzniveau von P=0,05  zu 95% gesichert, dass die Verteilung signifikant, also nicht zufällig ist. Für unsere Frage lautet das: In unserem Korpus weicht die Häufigkeit des Bigramms / Trigramms deutlich von der üblichen Verteilung ab — und ist damit ein Hinweis auf eine stilistische Besonderheit in den Texten des Autors. Stellt sich hingegen heraus, dass die Verteilung nicht signifikant ist, dann ist sie zufällig und lässt keine weiteren Schlüsse in unserer Frage zu. Blicken wir also nun unter den genannten Bedingungen auf die ermittelten X²-Werte:

„auf die“
X²=0,51014425 — nicht signifikant

„vor allem“
X²=32,89404141 — signifikant

„Bezug auf“
X²=167,7161751 — signifikant

„sondern auch“
X²=6,879417755 — signifikant

„Frage nach der“
X²=44,67640048 — signifikant

„Bezug auf die“
X²=210,9464185 — signifikant

Während das Bigramm „auf die“ deutlich nicht signifikant ist, sind alle anderen Bi- und Trigramme höchst signifikant — mit einer Wahrscheinlichkeit von 99%, bei „vor allem“, „Bezug auf“ (damit natürlich auch für „Bezug auf die“) und „Frage nach der“ sogar über 99,9%, ist bei aller Vorsicht wegen des geringen Umfangs unseres Untersuchungskorpus davon auszugehen, dass die Schwankungen der Frequenzunterschiede in den Texten unserer Korpora nicht zufällig sind — hierbei handelt es sich also um auffällige sprachliche Muster, die möglicherweise als Hinweis auf die Autorschaft dienlich sein können.

Auch die Log-likelihood-Werte, die man zur Überprüfung der X²-Werte heranziehen kann, sprechen eine ähnlich deutliche Sprache. Sie sind ebenfalls auf die oben angebenen kritischen Werte  zu beziehen. Auch wenn der Log-likelihood-Wert z.B. für das Trigramm „Frage nach der“ leicht abweicht, sind alle Werte hoch signifikant und damit ist die Schwankung der Frequenzunterschiede nicht zufällig.

„vor allem“ 24.10
„sondern auch“ 5.43
„Frage nach der“ 22.12
„Bezug auf die“ 49.01

4. Wie geht es weiter?

Abgesehen davon, dass nun weitere Signifikanztests durchgeführt werden können, haben wir eines noch nicht getan: Wir haben unser Untersuchungskorpus nicht annotiert. Würde man alle Textwörter nämlich hinsichtlich ihrer Form und ihrer syntaktischen Funktion bestimmen und führte eine Analyse auf der Basis dieser Daten durch, wären noch ganz andere Ergebnisse zu erwarten. Dies kann und will ich hier aber mit diesem kurzen Beispiel nicht zeigen.

5. Welche Schlüsse kann man aus den Ergebnissen ziehen?

Als Autor habe ich gewisse Vorlieben für sprachliche Muster: Bigramme und Trigramme wie „vor allem“, „sondern auch“, „Frage nach der“ und „Bezug auf die“ gebrauche ich in meinen Texten weit häufiger, als das in vergleichbaren wissenschaftlichen Texten zu beobachten ist. Mit dem Bigramm „vor allem“ habe ich gerechnet — wie bereits angedeutet tilge ich dies von Hand. Die anderen Muster waren mir nicht bewusst — besonders „Bezug auf die“ als Trigramm ist höchst signifikant.

Damit könnte man Texte, die ich verfasst habe (z.B. auch noch in Kombination mit den anderen Bi- und Trigrammen), deutlich erkennen. Bzw. könnte man Texte, die ich nicht verfasst habe, aber als meine ausgebe, als Plagiate enttarnen. Plagiierte ich, müsste ich vor allem einige dieser Bigramme und Trigramme in den nicht selbst verfassten Text einstreuen, um ihn als meinen Text zu signieren. Denn jetzt ist es keine Signatur mehr, die sich meiner Aufmerksamkeit entzieht.

Bis jetzt war mir dies aber nicht bewusst. Und so ergeht es nicht nur mir, sondern auch der Werbeagentur, die große Mengen an Texten für ihre Kunden verfasst (Werbesprache). Oder dem Unternehmen, das interne Leitlinien erstellt und extern mit Kunden kommuniziert (Unternehmenskommunikation). Oder Politikern, die in Fällen, in denen Sie keine positive Antwort geben können, auf ihnen unbewusste Sprachmuster zurückgreifen (Sprache und Politik). Oder dem Kriminellen, der ein Lösegeld (Forensische Linguistik) erpressen will. Alle diese Themen sind natürlich nicht allein korpuslinguistisch zu beschreiben — aber die Korpuslinguistik bietet wichtige Ergebnisse für die weitere Interpretation an.

#Korpus #Korpuslinguistik #AntConc #GraphViz #Autorstil #Forensische Linguistik #X² #Chi-Quadrat

, , ,

Trackbacks/Pingbacks

  1. Mann des Ostens, Mann der Kirche — Joachim Gauck und das Genitivattribut in einer “Korpuslinguistik ‘live’ und ‘light’” | Alexander Lasch - 23. März 2012

    […] in Texten visualisiert man am besten mit GraphViz. Auch dieses Werkzeug kam hier schon zum Einsatz und wird daher nicht noch einmal im Detail beschrieben. Auf einen Verdacht hin […]

  2. Seminar “Konstruktionsgrammatik und Korpuslinguistik” | Alexander Lasch - 14. September 2012

    […] in die theoretischen Grundlagen der Konstruktionsgrammatik als funktionale Grammatik und in die Korpuslinguistik eingeführt. Anhand eigener kleiner exemplarischer Studien werden Methode und Theorie aufeinander […]

  3. Ein Jahr “Sprachpunkt” | Alexander Lasch - 14. September 2012

    […] 01 (359) — Wozu Korpuslinguistik? […]

  4. CasualConc – ein Textanalysewerkzeug für den Mac | Edyssee - 29. Mai 2016

    […] Wie man einen charakteristischen Autorenstil herausfindet, hat der Linguist Alexander Lasch in einem sehr lesenswerten Blogartikel beschrieben. Dort ist auch Schritt für Schritt erklärt, wie man mit Textanalyse-Werkzeugen […]

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: