SaltNPepper, ANNIS & Atomic: Eine Infrastruktur für Mehrebenenkorpora

In Sammlungen von Textdaten und dazugehörigen linguistischen Annotationen lassen sich empirisch linguistische Phänomene untersuchen. Sprachdaten können auf vielen Ebenen klassifieziert und in einem Korpus annotiert werden: Wörter können Wortarten zugeordnet werden, Sätze können syntaktisch annotiert und mit rhetorischen Strukturen angereichert werden, in Lernertexten können grammatische Fehler angegeben werden etc. Für die Annotation und Analyse einzelner Ebenen existieren unterschiedliche Werkzeuge: MMAX2, RSTTool, @nnotate, EXMARaLDA, Elan, TiGerSearch und viele weitere. Einige linguistische Phänomene wie bspw. Informationsstruktur lassen sich nur über mehere Ebenen (Betonung, Wortstellung,
Definitheit, Gegebenheit etc.) hinweg untersuchen (Lüdeling et al., erscheint). Die Werkzeuge verlangen unterschiedliche Eingabeformate und produzieren verschiedene Ausgabeformate. Dadurch ist eine Analyse über verschiedene Ebenen hinweg schwierig. Einige Werkzeuge werden nicht weiter gepflegt.

Ziele:
1.Zusammenführen der Ebenen zu Mehrebenenkorpora → Pepper
2.Ebenenübergreifende Analyse der Daten → ANNIS
3.Erstellung von Mehrebenenkorpora in einem Tool → Atomic

Categories

Keyword(s)

License

CC BY 4.0