Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining (KobRA): Unterschied zwischen den Versionen

Aus StudiGer
Wechseln zu: Navigation, Suche
K
Zeile 22: Zeile 22:
  
 
Die Anbieter strukturierter Sprachressourcen – drei große Anbieter deutscher Ressourcen sind als Sprachtechnologie-Partner in das Projekt eingebunden – bieten flexible Werkzeuge an, mit denen sich aus annotiertem Sprachmaterial Listen von Treffern zu einem Suchterm und statistische Daten erzeugen lassen. Für sehr viele linguistische Forschungsfragen müssen diese Ergebnisse allerdings noch weiter bearbeitet werden. Gerade wenn die linguistischen Anwender nicht selbst Softwarelösungen für die Datenauswertung entwickeln können, sehen sie sich mit zeitaufwändigen, manuellen Routinearbeiten konfrontiert. Manche Forschungsfragen können unter den gegebenen Zeitrestriktionen (einer Dissertation, einer Bachelor- oder Masterarbeit) gar nicht adäquat empirisch bearbeitet werden. Das Ziel des Projekts ist es, diese Situation zu verbessern. Damit mehr Forscher von den Chancen korpus-basierter Zugänge profitieren können, ergibt sich ein Bedarf für Verfahren zur
 
Die Anbieter strukturierter Sprachressourcen – drei große Anbieter deutscher Ressourcen sind als Sprachtechnologie-Partner in das Projekt eingebunden – bieten flexible Werkzeuge an, mit denen sich aus annotiertem Sprachmaterial Listen von Treffern zu einem Suchterm und statistische Daten erzeugen lassen. Für sehr viele linguistische Forschungsfragen müssen diese Ergebnisse allerdings noch weiter bearbeitet werden. Gerade wenn die linguistischen Anwender nicht selbst Softwarelösungen für die Datenauswertung entwickeln können, sehen sie sich mit zeitaufwändigen, manuellen Routinearbeiten konfrontiert. Manche Forschungsfragen können unter den gegebenen Zeitrestriktionen (einer Dissertation, einer Bachelor- oder Masterarbeit) gar nicht adäquat empirisch bearbeitet werden. Das Ziel des Projekts ist es, diese Situation zu verbessern. Damit mehr Forscher von den Chancen korpus-basierter Zugänge profitieren können, ergibt sich ein Bedarf für Verfahren zur
*'''Verbesserung der Präzision von Suchergebnissen''', so dass die Anzahl der falschen Positiven sinkt;
+
*'''Verbesserung der Präzision von Suchergebnissen''', so dass die Anzahl der falsch Positiven sinkt;
 
*'''Strukturierung der Ergebnisse''' nach unterschiedlichen Bedeutungen und Kontexten;
 
*'''Strukturierung der Ergebnisse''' nach unterschiedlichen Bedeutungen und Kontexten;
 
*'''Aufbereitung von Korpusdaten''' für eine konkrete Fragestellung.
 
*'''Aufbereitung von Korpusdaten''' für eine konkrete Fragestellung.

Version vom 1. November 2012, 14:57 Uhr

Verbundprojekt, gefördert durch das Bundesministerium für Bildung und Forschung (BMBF) im Rahmen des Programms zur Förderung von Forschungs- und Entwicklungsvorhaben aus dem Bereich der eHumanities (Laufzeit: September 2012 - August 2015)

Bmbfkobra2.jpg

Projektbeteiligte:

  • Prof. Dr. Angelika Storrer, TU Dortmund, Institut für deutsche Sprache und Literatur, Lehrstuhl für Linguistik der deutschen Sprache und Sprachdidaktik (Koordination)
  • Prof. Dr. Katharina Morik, TU Dortmund, Fakultät Informatik, Lehrstuhl für Künstliche Intelligenz
  • Prof. Dr. Erhard Hinrichs, Eberhard-Karls-Universität Tübingen, Seminar für Sprachwissenschaft (Computerlinguistik)
  • Dr. Alexander Geyken, Berlin-Brandenburgische Akademie der Wissenschaften, Zentrum Sprache
  • Dr. Marc Kupietz / Dr. Andreas Witt, Institut für deutsche Sprache, Mannheim (Programmbereiche Korpuslinguistik und Forschungsinfrastruktur)
Korpus-basierte Linguistik hat sich in den letzten Jahren zu einem wichtigen Gebiet der Sprachforschung entwickelt. In Infrastrukturprojekten wie CLARIN werden umfangreiche, strukturierte Sprachressourcen (Textkorpora, Baumbanken, lexikalische Wortnetze) bereitgestellt, die neuartige und attraktive Möglichkeiten bieten, linguistische Fragestellungen an authentischen Sprachverwendungsdaten zu untersuchen und quantitativ auszuwerten.

Ziel des Projekts ist es, durch den Einsatz innovativer Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens) die Möglichkeiten der empirischen linguistischen Arbeit mit strukturierten Sprachressourcen zu verbessern.

Die Anbieter strukturierter Sprachressourcen – drei große Anbieter deutscher Ressourcen sind als Sprachtechnologie-Partner in das Projekt eingebunden – bieten flexible Werkzeuge an, mit denen sich aus annotiertem Sprachmaterial Listen von Treffern zu einem Suchterm und statistische Daten erzeugen lassen. Für sehr viele linguistische Forschungsfragen müssen diese Ergebnisse allerdings noch weiter bearbeitet werden. Gerade wenn die linguistischen Anwender nicht selbst Softwarelösungen für die Datenauswertung entwickeln können, sehen sie sich mit zeitaufwändigen, manuellen Routinearbeiten konfrontiert. Manche Forschungsfragen können unter den gegebenen Zeitrestriktionen (einer Dissertation, einer Bachelor- oder Masterarbeit) gar nicht adäquat empirisch bearbeitet werden. Das Ziel des Projekts ist es, diese Situation zu verbessern. Damit mehr Forscher von den Chancen korpus-basierter Zugänge profitieren können, ergibt sich ein Bedarf für Verfahren zur

  • Verbesserung der Präzision von Suchergebnissen, so dass die Anzahl der falsch Positiven sinkt;
  • Strukturierung der Ergebnisse nach unterschiedlichen Bedeutungen und Kontexten;
  • Aufbereitung von Korpusdaten für eine konkrete Fragestellung.

Hier setzt das Projekt mit den vom Informatik-Partner entwickelten Data-Mining-Verfahren an. Die Ergebnisse der Suchanfragen aus den Korpusinfrastrukturen werden dabei als Datensätze behandelt, aus denen maschinell gelernt werden soll. Insbesondere sind Lernaufgaben des folgenden Typs von Interesse:

  • Die Klassifikation von Ergebnislisten nach verschiedenen Bedeutungen (Disambiguierung);
  • das Clustering von Ergebnislisten, so dass eine übersichtliche Struktur auch visuell dargestellt werden kann;
  • das Erkennen von "ungewöhnlichen" Belegen (Ausreißern);
  • die aufgabenbezogene linguistische Annotation.

Die im Projekt entwickelten Verfahren werden an linguistischen Fallstudien des Linguistik-Partners zu Funktionsverbgefügen und zur Sprachverwendung in der internetbasierten Kommunikation erprobt und evaluiert; sie sind aber auch für korpus-basierte Untersuchungen in vielen anderen Forschungsfeldern in der Linguistik und in anderen Geisteswissenschaften relevant. Im dritten Projektjahr werden in die CLARIN-Korpusinfrastrukturen der Sprachtechnologie-Partner integriert und in weiteren Anwendungskontexten erprobt. Durch die Integration wird der nachhaltige Nutzwert der Projektergebnisse über die Projektlaufzeit hinaus gesichert und stehen die im Projekt entwickelten Verfahren nach Projektende auch anderen korpus-basiert arbeitenden Wissenschaftlern zur Verfügung.