Ich weiß, was Du letzten Sommer gesagt hast. Möglichkeiten der maschinellen Autorenidentifizierung

25. Juni 2012

Forschung, Lehre, Weiterführendes

Joachim Scharloth* sprach im Rahmen des Seminars “Forensische Linguistik” über:

Autorenidentifizierung und Autorschaftsverschleierung. Maschinelle Methoden in der forensischen Linguistik und Möglichkeiten ihrer Überlistung

Wesentliches Anliegen war ihm, auf die Möglichkeiten und Risiken der maschinellen Autorenidentifizierung hinzuweisen. In der Informatik werden so genannte „unbewusste“ sprachliche Kriterien (Wortlänge, Satzlänge, Anzahl der Konnektoren, n-Gramme von Buchstaben, Anzahl der Ziffern etc.) für die Autorenidentifizierung eingesetzt. Scharloth konnte an einem Beispiel illustrieren, dass z.B. die Aspekte der Textsortenzugehörigkeit und genereller der Kommunikationsbereiche, aus denen man sprachliches Material für die Analyse heranzieht, ganz entscheidenden Einfluss haben auf die statistische Auswertung und damit auf die Ergebnisse einer Untersuchung.

Im Vortrag ging er zunächst auf die drei Arten der Ermittlung von Urhebern in kriminalistischen Untersuchungen ein:

  • Profiling (also zum einen der Analyse eines Textes im Hinblick auf seine sprachlichen Merkmale und zum anderen ein Rückschluss auf ein Profil des Urhebers),
  • Verifikation (Erarbeitung von sprachlichen Merkmalen aus einer Gruppe von Texten, die einem von mehreren bekannten Urhebern zugewiesen werden sollen) und
  • Klassifikation (Erarbeitung von sprachlichen Merkmalen aus einer Gruppe von Texten, die miteinander in Bezug gesetzt und klassifiziert werden).

Ausgehend von der Klassifikation stellte er an einem Beispielkorpus die Methoden der Clusteranalyse und das Entscheidungsbaumverfahren vor und schloss mit einer Präsentation der Klassifikationsergebnisse einer Support Vector Machine (SVM). Dabei hob er besonders heraus, dass die Korpuslinguistik Wesentliches zur maschinellen Autorenidentifizierung beitragen kann, da sie sensibel mit linguistischen Kategorien umgehe. Gerade die SVM, und damit das maschinelle Lernen, hat beachtliches Potential.

Update (19.07.12): Joachim Scharloth hat den Vortrag kürzlich ausführlich auf seinem Blog surveillance and security dokumentiert:

Geschichte der computergestützten Autorenerkennung am Beispiel der Texte der “militanten gruppe”

__

* Joachim Scharloth ist Professor für Germanistische Sprachwissenschaft an der Dokkyo-Universität in Tokyo und wird ab dem Wintersemester 2012/2013 den Lehrstuhl Angewandte  Linguistik an der TU Dresden leiten.

Trackbacks/Pingbacks

  1. DIE KLAU MICH SHOW – dOCUMENTA(13) | surveillance and security - Eine Sammlung zu computer- und korpuslinguistischen Methoden des politisch motivierten Internet-Monitorings - 26. Juni 2012

    […] der TU Dresden, wo ich ab 1.10. eine Professur für Angewandte Linguistik antreten werden, zu einem Vortrag zum Thema “Autorenidentifizierung und Autorschaftsverschleierung. Maschinelle Methoden in der forensischen Linguistik und Möglichkeiten ihrer Überlistung”. […]

  2. Zum Nachhören und Nachlesen | Alexander Lasch - 2. Juli 2012

    […] hörten wir nach dem Abschluss des thematischen Schwerpunkts zur maschinellen Sprachanalyse mit dem Vortrag von Joachim Scharloth zwei Referate zum Thema der Typologisierung von Rechtssprache (nach Dietrich Busse) und […]

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: