Sprungmarken

Servicenavigation

Hauptnavigation

Sie sind hier:

Hauptinhalt

Empirische Sprachforschung mit Informatikmethoden: Auftakttreffen des BMBF-Verbundprojekts KobRA

Große Sammlungen digitaler Sprachdaten, sog. Korpora, eröffnen neue Möglichkeiten, um Sprachstrukturen und Prozesse des sprachlichen Wandels empirisch zu erforschen. Im Projektverbund „Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining“ (KobRA) arbeiten Partner aus der Dortmunder Informatik (Prof. Dr. Katharina Morik) und der Dortmunder Linguistik (Prof. Dr. Angelika Storrer) gemeinsam mit Sprachtechnologie-Partnern aus dem europäischen Infrastrukturprojekt CLARIN (Common Language Resources and Technology Infrastructure) daran, diese Möglichkeiten zu erweitern und zu verbessern. Das Auftakttreffen des vom BMBF finanzierten und von der Dortmunder Linguistik koordinierten Verbunds findet am 15./16.11.12 im Erich-Brost-Haus der TU Dortmund statt.

kwic-kobra  

Im europäischen Infrastrukturprojekt CLARIN (Common Language Resources and Technology Infrastructure) werden umfangreiche, strukturierte Sprachkorpora, Lexika und Werkzeuge bereitgestellt, die neuartige und attraktive Möglichkeiten bieten, linguistische Fragestellungen auf breiter empirischer Basis zu untersuchen. Das Verbundvorhaben „Korpus-basierte linguistische Recherche und Analyse mit Hilfe von Data-Mining (KobRA)“ setzt auf diesen Infrastrukturen auf und nutzt Data-Mining-Verfahren (insbesondere Verfahren des maschinellen Lernens), die über die reine Suche in Korpora hinausgehen, indem sie die Suchergebnisse verbessern, strukturieren und für die Nutzer visuell aufbereiten. Ziel der Verfahren ist es, zeitraubende Routineaufgaben bei der korpus-basierten Analyse zu beschleunigen und die Recherchemöglichkeiten in strukturierten Korpora zu erweitern. Die Verfahren sind nicht nur für die korpus-basierte Sprachforschung und für die Ausbildung des wissenschaftlichen Nachwuchses nützlich. Sie unterstützen auch das Arbeiten mit Korpora im Kontext des „forschenden Lernens“ in der Hochschullehre. Beim Einsatz von Data-Mining-Verfahren für komplexe Datenstrukturen möchte das Projekt außerdem Erkenntnisse zur Frage gewinnen, welche linguistischen Merkmale und Annotationen für welchen Typ von Data-Mining-Aufgaben relevant sind.

 

Im Projektverbund KobRA arbeiten Partner aus der Dortmunder Informatik (Prof. Dr. Katharina Morik) und der Dortmunder Linguistik (Prof. Dr. Angelika Storrer) zusammen: Die Data-Mining-Methoden kommen aus der Informatik; sie beziehen sich auf korpus-basierte Forschungen aus der Linguistik. Weiterhin sind drei Sprachtechnologie-Partner am Projekt beteiligt, die im Rahmen von CLARIN strukturierte Korpora, Lexika und Werkzeuge bereitstellen:

 

  • Der Lehrstuhl Computerlinguistik (Prof. Dr. Erhard Hinrichs) am Seminar für Sprachwissenschaft SfS der Eberhard-Karls-Universität Tübingen, der maßgeblich an der Koordination der europäischen CLARIN-Inititative beteiligt ist.
  • Die Berlin-Brandenburgische Akademie der Wissenschaften (BBAW), die im Rahmen des Projekts „Digitales Wörterbuch der deutschen Sprache“ (DWDS) große, ausgewogene Korpora und lexikalische Daten online verfügbar macht. (Dr. Alexander Geyken).
  • Das Institut für deutsche Sprache (IdS) in Mannheim als Anbieter der größten Sammlung deutschsprachiger Korpusdaten (Dr. Marc Kupietz, Dr. Andreas Witt).

 

Die Sprachtechnologie-Partner bringen ihre Ressourcen und Werkzeuge in das Projekt ein und sichern die Nachhaltigkeit der entwickelten Verfahren, indem sie diese im letzten Projektjahr in ihre Korpusinfrastrukturen integrieren und in weiteren Anwendungskontexten erproben.

KobRA wird vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen der Ausschreibung zu Forschungs- und Entwicklungsvorhaben aus dem Bereich der „eHumanities“ für drei Jahre gefördert; die Koordination obliegt der Dortmunder Linguistik (Prof. Dr. Angelika Storrer).