Geisteswissenschaftler der Uni Hildesheim lesen mit Hilfe des Rechners riesige Textmengen

Wie Computerlinguisten arbeiten

Schleichen, straucheln, täuschen: Wörter jagen durch die Datenbanken der Computerlinguisten Professor Ulrich Heid und Ronny Jauch von der Universität Hildesheim.

HILDESHEIM Der digitale Wind weht quer durch alle textbasierten Geisteswissenschaften, von Literatur bis Soziologie. Wie gehen Forscher mit den Unmengen an Daten um? Wissenschaftler der Universitäten Stuttgart, Hildesheim und Potsdam nehmen sich nun Zeitungsarchive vor. Dabei untersuchen Politikwissenschaftler, welche kollektiven Identitäten – etwa europäische, nationale, religiöse – im Zusammenhang mit internationalen Krisen genannt werden.

Die Computerlinguisten der Hildesheimer Universität sind am Anfang der Kette. „Wir bringen Ordnung in journalistische Textarchive“, sagt Professor Ulrich Heid. Statt einer Einzellektüre gehen sie eine große Datensammlung durch und suchen nach Mustern. Politikwissenschaftler analysieren Texte bisher meist manuell – aufwändig und punktuell – oder mit bestehenden Werkzeugen, mit denen sie aber nur einige tausend Artikel bearbeiten oder nach Wortformen suchen können. Eine tiefergehende sprachbezogene Analyse ist nicht möglich. Unterstützt durch computerlinguistische Verfahren sollen die Fachwissenschaftler nun große Mengen eigenständig bearbeiten können. So können sie zum Beispiel sehr schnell entscheiden, ob ein Artikel zum Thema „Krisen, Krieg, militärische Interventionen“ gehört oder nicht. Denn auch in Fußballberichten findet sich viel einschlägiges Vokabular: Da wird geschossen, verteidigt, eine Linie gehalten.

Aber wie findet man „Identität“ in riesigen Textmengen? „Wir analysieren das Umfeld, nicht einzelne Worte, wir suchen nach Mustern, etwa Formulierungen wie ‚x zeigte sich erfreut‘. Dann rechnen wir zurück, wer spricht, worüber spricht er, wertend oder nicht wertend“, sagt Ulrich Heid. Kollektive Identitäten können ganz unterschiedlich ausgedrückt werden, in journalistischen Texten sind oft Andeutungen und Metaphern enthalten. Typisch sind etwa Ausdrücke wie „Washington kann in dieser Frage nicht über seinen Schatten springen“. „Wir suchen auch versteckte Informationen in Texten. Man muss hinter die Formulierung schauen und tiefer in den Text einsteigen.“ Zunächst sammeln die Forscher, welche Zeitungen über Kriege und humanitäre Interventionen seit 1990 geschrieben haben. Sie greifen auf etwa 800 000 Zeitungsartikel europäischer Länder – Österreich, Deutschland, Irland, Frankreich, Großbritannien – und der USA zurück. Dabei unterscheiden die Forscher zwischen Kommentaren, Meldungen, Leitartikeln und weiteren Textarten, markieren ähnliche Artikel und Dubletten von Nachrichtenagenturen und finden Wege, Fußballberichte mit „Kriegsterminologie“ auszusortieren. „Wir haben es mit digitalen Daten in unterschiedlichen Formaten und Datenstrukturen zu tun. Datenmaterial aus verschiedenen Quellen einheitlich aufzubereiten ist komplex“, sagt Fritz Kliche, wissenschaftlicher Mitarbeiter am Institut für Informationswissenschaft und Sprachtechnologie der Uni Hildesheim. Dabei haben die Forscher Erfahrung in der Zeitungsanalyse: So hat Ulrich Heids frühere Arbeitsgruppe in Zusammenarbeit mit dem Max-Planck-Institut für internationales Strafrecht etwa eine halbe Millionen Artikel zum Thema Familientragödien analysiert – auf der Suche nach Tatmustern.

Fachwissenschaftler können die Texte nach Wörtern und Wortsequenzen durchsuchen oder nach einer großen Anzahl von inhaltlich ähnlichen oder sprachlich unterschiedlichen „Sprechweisen“. Die Stuttgarter Politikwissenschaftlerin Cathleen Kantner, die das Verbundprojekt leitet, hat eine Vielzahl von Sprechweisen identifiziert, die auf einen Bezug auf Europa als Wertegemeinschaft hindeuten: Rückblickend kann man darstellen, was eine Ankündigung auslöst – etwa die Energiewende nach dem Unglück in Fukushima – oder wie sich die Einstellungen zum „arabischen Frühling“ verändert haben. Die Medienaufmerksamkeit für ein Thema kann somit weitgehend automatisch errechnet und in einer Grafik als Kurve über Tage, Wochen oder Monate dargestellt werden. Das Bundesforschungsministerium fördert das dreijährige Projekt „eIdentity“ bis 2015 mit 853 000 Euro.

Kommentare