Literatur und Linguistik

12. Dezember 2016

Sprachpunkt

Initiativen wie bspw. literaturlinguistik.de bemühen sich darum, die Drift zwischen Literatur- und Sprachwissenschaft zu verkleinern, indem man in übergreifenden Fragestellungen zeigt, dass die je verschiedenen Perspektiven auf den Gegenstand und Aneignungen sehr fruchtbar sein können.

Ich will heute eine recht spezielle Perspektive erneut in anderem Kontext vorstellen und illustrieren, dass dies kein akademisches Thema sein muss, sondern durchaus auch da in Anschlag gebracht werden kann, wo sich typischerweise noch andere Klüfte öffnen. Einer dieser Orte ist Schule, wo nicht nur darüber diskutiert wird, wie man Deutschunterricht gestaltet, sondern auch darüber, wie man die Brücke zwischen mathematisch-naturwissenschaftlichen Fächern und den Geisteswissenschaften schlagen kann oder welche technischen Möglichkeiten in einem modernen Unterricht erwünscht sind und welche nicht. Für das Seminar „Maschinelle Sprachanalyse“ befasste ich mich im Wintersemester 2016/2017 gemeinsam mit Studierenden mit der Frage, was korpuslinguistische Methoden leisten können, wenn man sie nutzt, um Hypothesen zu generieren und Untersuchungen auf eine saubere, empirisch fundierte Datenbasis zu stellen. Die Ergebnisse einer Sitzung dieses Seminars können auch in anderen Kontexten,  wie im Deutschunterricht (und anderen geisteswissenschaftlichen Fächern, die u.a. auch begriffsgeschichtlich orientiert sind) aufgegriffen werden.

Eine dieser Fragen könnte bswp. sein, welche sprachlichen Merkmale Goethes Faust-Dramen von Dramen seiner Zeitgenossen unterscheiden. Welche Mittel werden verwendet, die die Texte von denen Lessings oder Schillers abheben? Welche sprachlichen Muster werden Goethes Texte von denen Heines oder Kleists unterscheiden? Der übliche Zugang zu Fragen dieser Art ist im literaturwissenschaftlichen Unterricht meist intuitiv, d.h. man mutmaßt, ausgehend von gesammelten Erfahrungen, Leseeindrücken oder gestützt durch Positionen der Sekundärliteratur, darüber, wie die ‚Sprache Goethes‘ sei. In Summe aller möglichen Meinungen zu diesem Thema nähert man sich dann diskursiv Antworten an, die intersubjektiv verhandelt werden können.

Als Linguist schreckt man diesbezüglich vor nichts zurück. Deshalb kann man sich offen fragen, welche Konsequenzen es hätte, wenn man (zusätzlich) sprachliche Besonderheiten der Goethe’schen Dramen einfach errechnen könnte, um Interpretationsansätze zu entwickeln oder vorliegende Interpretationen zu bestätigen oder zu korrigieren? Was wäre, wenn man zu neuen Aussagen über diese Texte gelangt? Faktisch unterscheiden sich Fragen wie diese nicht von denen der Forensischen Linguistik, die u.a. in multifaktoriellen Analysen Autorschaftsprofile erstellt. Und das wollen wir heute tun.

Ausgangspunkt sind frei zugängliche Texte, die wir vergleichen. Wir greifen diese am besten von http://www.digbib.org/ ab. Wir wählen:

  • Friedrich von Schiller: Die Räuber und Wilhelm Tell
  • Gotthold Ephraim Lessing: Emilia Galotti, Minna von Barnhelm und Nathan der Weise
  • Heinrich Heine: Almansor
  • Heinrich von Kleist: Penthesilea, Der zerbrochene Krug und Prinz Friedrich von Homburg
  • Franz Grillparzer: Der Traum ein Leben sowie
  • Johann Wolfgang von Goethe: Faust I und Faust II.

Statt einer voraussetzungslosen Lektüre setzen wir auf eine hypothesengestützte maschinelle Auswertung der vorliegenden Dramentexte. Wir fragen uns: Welche sprachlichen Muster in Goethes Faust-Dramen unterscheiden diese Texte (signifikant) von denen Schillers, Lessings, Heines, Kleists und Grillparzers? Die Liste wäre beliebig erweiterbar, ist aber in unserem Fall begrenzt, da wir nur eine Auswahl an Dramentexten digitalisiert frei verfügbar vorfinden. Zur Berechnung dieser Gemeinsamkeiten und Unterschiede setzen wir auf folgende Tools, die (fast) alle frei verfügbar sind:

  • AntFileConverter: Dieses Tool hilft dabei, Texte in den gängigen Formaten (*.pdf, *.doc[x] und *.txt) für die maschinelle Analyse vorzubereiten.
  • TagAnt: Dieses Tool wird verwendet, um Korpora zu lemmatisieren (also Flexionsdifferenzen zu normalisieren) und grammatisch zu annotieren.
  • AntConc: Mit AntConc zählen wir an dieser Stelle. Auch werden wir es dazu nutzen, um n-Gramme auf lexikalischer und auf grammatischer Basis zählen zu lassen.
  • Excel: Berechnung von Signifikanzprofilen. Alternativ können auch die Tabellenkalkulation unter OpenOffice oder GoogleSheets verwendet werden.

Mit diesen Hilfmitteln und nach der Vorbereitung des Korpus (ein paar zusätzliche Handgriffe sind schon noch notwendig) errechnen wir nach der Zählung aller sprachlichen Einheiten so genannte Signifikanzprofile. Diese sagen aus, welche sprachlichen Muster auf einer bestimmten sprachlichen Ebene als besonders typisch (statistisch signifikant; Chi^2-Test) zu gelten haben, und auch, ob deren Auftreten oder Fehlen typisch für die Goethe’schen Texte im Vergleich zu den anderen Texten ist. Dazu wird die Differenz zwischen beobachteten und erwarteten Werten aus der Signifikanzberechnung zweitverwertet. Beginnen wir mit lexikalischen (nicht ganz so aussagekräftigen) Einheiten — das wären aber die, die man vor allem durch Lektüre ermitteln könnte:

Keywords (n=1) in Goethes Faust-Dramen gegen Schiller, Heine, Lessing, Grillparzer und Kleist.

Wenig überraschend ist, dass Faust als lexikalische Einheit überproportional häufig (rote Linie für die Differenz zwischen beobachteten und erwarteten Werten) und statistisch signifikant, d.h. nicht zufällig (blaue Linie), in Goethes Dramen verwendet wird. Neben Trivialitäten wie dieser sind hier an ‚Einzelwortschicksalen‘ das häufige Auftreten von es, sich als Reflexivmarker oder der Konjunktion und sowie das Ausbleiben erwarteter Personalpronomina der dritten Person (er und sie) auffällig. Letzteres — dies eine erste Hypothese — könnte möglicherweise Indikator für die besondere Dialogizität der Goethe’schen Dramen sein, wofür stützend auch das hohe Auftreten zumindest des Personalpronomens wir spricht. Die 50 auffälligsten sprachlichen Merkmale auf Einwortebene sind Merkmale, deren Auftretensverteilung Faust I und Faust II von den anderen Dramen (höchst signifikant) scheiden. Das gilt auch für eine ganze Reihe lexikalischer Zweiworteinheiten (Bigramme, n=2), die ebenso automatisch errechnet werden:

Bigramme (n=2) in Goethes Faust-Dramen gegen Schiller, Heine, Lessing, Grillparzer und Kleist.

Von nur durch viel Handarbeit oder nicht vermeidbaren  Fehlern (wie mögen auf Position 11 oder der Doppelangabe von sie|Sie auf Position 2) abgesehen stellt sich schon bei den Bigrammen der typische Effekt ein, dass hier Eigennamen (der prinz, von homburg, prinz von) eine dominante Rolle spielen. Die Beispiele referieren auf Kleist und freilich lassen sie sich in Goethes Texten nicht nachweisen. Interessant sind Bigramme wie und jede, die man nicht zwingend mit Goethes Texten in Verbindung bringen würde und die vermutlich einer genauen Lektüre auch entgingen – Beobachtungen wie diese wären in einem zweiten Schritt am Originaltext zu prüfen, um mögliche Hypothesen für eine Interpretation aufzubauen. Ein erster Anhaltspunkt für eine solche ist zumindest gegeben.

Ein Überblick über lexikalische Trigramme schließlich bringt uns an den Rand der Aussagekraft dieser Auswertungsmöglichkeit:

Trigramme (n=3) in Goethes Faust-Dramen gegen Schiller, Heine, Lessing, Grillparzer und Kleist.

Statistisch allesamt noch signifikant (d.h. häufiger als bei zufälliger Verteilung erwartet) sind lexikalische Trigramme hinsichtlich ihrer Interpretationskaft schon deutlich eingeschränkt. Dennoch, auch wenn man hier auf dieser Ebene nicht mehr zwingend mit Auffälligkeiten rechnet, entdecken wir Vorlieben für bestimmte sprachliche Muster, deren genaue Interpretation man weiter verfolgen könnte (da liegen die: da lemmatisiert können das im Text z.B. sein da liegt der, da liegen die, da lag das usw.).

Richtig spannend wird es aber, wenn man die Korpusdaten grammatisch annotiert – also z.B. Wortartenannotationen vornimmt und diese in unterschiedlich definierten Umgebungen untersucht (n=1 bis n=3). Ich kürze den Weg hier ab und stelle nur die Trigramme aus dem grammatisch annotierten Korpus vor, die sich als typisch für Goethes Dramen erweisen:

an_n3

Trigramme des grammatisch annotierten Korpus (n=3) in Goethes Faust-Dramen gegen Schiller, Heine, Lessing, Grillparzer und Kleist.

Diese Herangehensweise hat den Vorteil, dass man von der lexikalischen Ebene abstrahiert. So fallen Muster (und deren Kombinationen in Signifikanzprofilen) auf, die treffsicher Aussagen über Autorenstile erlauben – genauer müsste man mit unserem Setting die Einschränkung machen, dass man Goethes ‚Handschrift‘ für zwei Dramen im Vergleich zu anderen Dramen ermittelt, ohne aber Aussagen über einen Autorenstil generell machen zu können. In den Blick rücken (u.a.) zwei Aspekte. Zwillingsformeln (NN KON NN) und der häufige Gebrauch von attributiven Adjektiven (ADJA/D NN) zeichnen die Dramentexte Goethes im Vergleich zu Dramentexten seiner Zeitgenossen aus; typischerweise werden dementsprechend Nominalphrasen mit Artikel und Nomen ohne attributives Adjektiv äußerst selten verwendet. Auch das gehört vor dem Vergleichshintergrund der anderen Dramen zur Typik dieser Texte – spätestens das letzte Ergebnis, nämlich auch zu sagen, was typischerweise nicht in einem Text zu erwarten ist, kann man auf dieser Ebene, der Untersuchung grammatisch annotierter Korpora, nicht mehr treffsicher durch Lektüreerfahrung erzielen. 

Schon in der Zueignung in Goethes Faust I findet man bspw. Zwillingsformeln wie diese (aus dem horizontal annotierten Korpus):

Dunst_NN und_KON Nebel_NN

Lieb_NN und_KON Freundschaft_NN

Not_NN und_KON Truebsal_NN

Und Attribuierungen durchziehen beinahe so ikonisch wie die Zwillingsformeln den gesamten Text (stellvertretend hier auch aus der Zueignung):

Ihr_PPER naht_VVFIN euch_PPER wieder_ADV ,_$, schwankende_ADJA Gestalten_NN ,_$,
Die_ART frueh_ADV sich_PRF einst_ADV dem_ART trueben_ADJA Blick_NN gezeigt_VVPP ._$.

Natürlich ist mit deutlichen Ergebnissen wie diesen auch der Umkehrschluss zulässig, der nicht auf Mutmaßungen aufruht: Sie stoßen in einem Drama von den hier verglichenen Autoren nicht auf Zwillingsformeln und es werden kaum attributive Adjektive verwendet? Dann ist das Drama nicht von Goethe (bzw. genauer: nicht Faust, alles andere wäre noch zu prüfen).

Was sagt uns das alles? Der forschungspraktische Vorteil liegt bei einer solchen Herangehensweise sofort auf der Hand: Niemand muss die Texte, die es auf diese Weise zu vergleichen gilt, lesen. Ohne Kenntnisse von kultur- und sprachhistorischen Voraussetzungen, zum Dramenaufbau oder der allgemeinen Charakteristik dramatischer Texte (wie Dialogizität statt Narrativität) kann man sprachliche Besonderheiten ausgesuchter Texte zuverlässig ermitteln. Und zwar so genau, wie es eine hingebungsvolle Lektüre niemals könnte. Aber: Die Ergebnisse sind offener Natur und immer interpretationsbedürftig. Das heißt, man braucht oben genannte Kenntnisse und man muss die Texte lesen, um sie weiterer Interpretation zu öffnen — das gilt für Literaturwissenschaftler_innen und Linguist_innen ebenso wie für Lehrer_innen und Schüler_innen. Die Daten sprechen nicht für sich und deshalb beginnt hier die interpretative Arbeit, auch wenn ein typisches Stereotyp über Linguist_innen behauptet, dass diese nur Daten auszählen und sich damit begnügen. 

Der Zugang ist besonders geeignet, um z.B. Schüler_innen, die sich eher für naturwissenschaftliche Fragestellungen interessieren, mit einer Methode vertraut zu machen, die sie anwenden können, um Texte auf eine spezielle Weise aufzuschließen. Die gewonnenen Daten können Grundlage eigener Hypothesen und Interpretationszugänge werden, die man durch ‚klassische‘ Lektüre vermutlich nicht findet. Zum Beispiel ist nach der besonderen Rolle der Zwillingsformeln in Goethes Texten ebenso zu fragen wie nach der Bedeutung von attributiv gebrauchten Adjektiven in seinen Dramentexten oder besonderen lexikalischen Bi- und Trigrammen (und jede, da liegen die usw.). Und stellen — schließlich — Goethes Texte eine besondere Dialogizität aus, die anderen Dramentexten der Zeit so nicht eingeschrieben ist?

Viel Spaß beim Mit- und Nachmachen — auch an der Schule? Das erfordert freilich Rechner im Klassenraum. Eine Möglichkeit wäre, Schüler_innen zu gestatten, eigene Technik zu verwenden — das Prinzip BYOD (bring your own device) kann man hier exemplarisch umsetzen. 

, ,

3 Kommentare - “Literatur und Linguistik”

  1. gnaddrig Sagt:

    Bin kein Linguist und kein Literaturwissenschaftler, aber mit solchen Methoden Datenbasen für die weitere Analyse von Texten zu schaffen finde ich wirklich interessant, gerade weil man vieles davon mit noch so aufmerksamer Lektüre nicht finden würde. Sehr spannend!

    Antwort

Trackbacks/Pingbacks

  1. Wozu braucht man Machine Learning? – Machine Learning Blog - 18. Dezember 2016

    […] Sprachraum halten statistische Methoden bei der Literaturanalyse Einzug: Unter der Überschrift Literatur und Linguistik hat beispielsweise Alexander Lasch zusammengefasst, inwiefern maschinelle Auswertungen […]

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: