VA-Projektbeschreibung für die Teilnehmer des statistischen Praktikums des Statistischen Beratungslabors des Instituts für Statistik der LMU (Zitieren)

Stephan Lücke


(898 Wörter)

Abstract

Im Alpenraum gibt es für die Bezeichnung einer Sache (= Konzept) normalerweise, verteilt auf eine große Anzahl von Sprachen und Dialekten, eine Vielzahl von verschiedenen Wörtern. Umgekehrt kann ein Wort unter Umständen mehrere unterschiedliche Konzepte bezeichnen. Dieser wechselseitige Zusammenhang variiert regional (Georeferenzierung) und über die Zeit (Chronoreferenzierung). Als weitere Variable kommen das Genus und die Herkunft eines Wortes ins Spiel. Außerdem können die Sachen zu Domänen zusammengefasst werden (z.B. Gebäude, Produkte, Werkzeuge -> vgl. oben INTERAKTIVE KARTE > KONZEPTE). Die skizzierten Zusammenhänge können statistischen Analysen unterzogen werden. Beispiel:  Welcher Zusammenhang besteht zwischen der Anzahl von Bezeichnungen für ein bestimmtes Konzept? Ist z.B. die Anzahl von Bezeichnungen pro Konzept in der Domäne "Produkte" durchschnittlich größer als in der Domäne "Gebäude"?

Im Detail

VerbaAlpina (= VA; https://www.verba-alpina.gwi.uni-muenchen.de/) ist ein seit 2014 von der DFG gefördertes Langzeitprojekt. Ziel des Projekts ist die systematische Sprach- und politische Grenzen überschreitende Sammlung von Bezeichnungen, die im Alpenraum für ausgewählte Konzepte gebräuchlich sind oder waren.

VerbaAlpina unterscheidet zwischen Bezeichnung und Konzept. Mit Konzept ist eine außersprachliche Kategorie gemeint, die auch als Begriff oder "platonische" Idee bezeichnet werden kann; zwischen Konzepten und Bezeichnungen besteht keine 1:1-Relation: für manche Konzepte gibt es in manchen Sprachen keine Bezeichnung; für andere Konzepte kann es dagegen in manchen Sprachen sehr viele, synonyme Bezeichnungen geben. Zur klaren Unterscheidung zwischen "Bezeichnung" und Konzept verwendet VerbaAlpina folgende Konvention: Ist ein Konzept gemeint, wird es in Versalien geschrieben, meint man eine Bezeichnung, wird das Wort kursiv gesetzt. Ein Beispiel: KÄSE meint das Konzept, also eine FESTE MASSE, DIE AUS MILCH DURCH DEN ZUSATZ EINES GERINNUNGSMITTELS ERZEUGT WIRD. Demgegenüber ist mit Käse das Wort gemeint, mit dem das Konzept KÄSE bezeichnet wird. Andere Bezeichnungen für KÄSE wären z.B. das italienische formaggio oder das französische fromage. VA ist jedoch weniger an den hochsprachlichen Bezeichnungen interessiert. Vielmehr geht es um die teils zahlreichen dialektalen Bezeichnungen für die von VA ausgewählten Konzepte. Für KÄSE wären dies z.B. die Bezeichnung caciolo, ciucc oder fontina, wobei es im Einzelfall immer sein kann, dass diese Bezeichnungen einen ganz bestimmten Typ von KÄSE bezeichnen.

VA ist lexikalisch ausgerichtet, d.h. phonetische Variationen ein und desselben Wortes werden jeweils zu einem sog. morpholexikalischen Typ zusammengefasst (z.B. Kaas, Chaas -> Käse). Im Rahmen der Typisierung werden den morpholexikalischen Typen nach Möglichkeit auch sog. Basistypen zugewiesen. Das sind, vereinfacht gesprochen, Vorstufen eines morpholexikalischen Typs, die häufig in älteren im Alpenraum gesprochenen Sprachen wie etwa dem Lateinischen zu suchen sind. So gehen beispielsweise die beiden morpholexikalischen Typen Formaggella und Formaggiera auf den gemeinsamen Basistyp formaticu(m) zurück. Hinsichtlich der morpholexikalischen Typen wird von VA außerdem zwischen der Sprachfamilie (romanisch, germanisch, slavisch), dem Genus (m., f., n.) und der sog. Affigierung unterschieden. Letztere meint Wortelemente wie z.B. Diminutiv-Suffixe wie im Deutschen "-chen".

Gesammelt werden ausschließlich georeferenzierte Sprachdaten. Das von VA gesammelte Material stammt bislang überwiegend aus sog. Sprachatlanten. Das sind Kartenwerke, auf denen die geographische Verbreitung von Bezeichnungen für bestimmte Konzepte markiert ist. Die Daten aus den Atlanten wurden von VA überwiegend manuell transkribiert und zusammen mit der Georeferenzierung in strukturierter Form in einer MySQL-Datenbank (VA_DB) abgelegt. Das Gesamtmaterial ist über definierte Schnittstellen abrufbar (VAP). Die Datenbank fungiert auch als Backbone der o.a. multifunktionalen Webschnittstelle (VA_WEB). Neben online-Kartographie und Dokumentation besteht dort auch ein Bereich für Projektveröffentlichungen, in dem auch die im Rahmen des statistischen Praktikums erarbeitete Studie publiziert werden soll.

Das Material aus den Sprachatlanten wird mehr oder weniger systematisch um weitere Daten ergänzt. Dazu gehören u.a. ergänzende Daten zu außersprachlichen Gegebenheiten, wie etwa die Fundorte lateinischer Inschriften im Alpenraum. Von Interesse wären auch demographische Daten, die derzeit aber noch nicht flächendeckend vorliegen. Ganz wesentlich ist der Ausgleich von Inkonsistenzen im Atlasmaterial, die sich vor allem aus Unterschieden bezüglich der von den einzelnen Atlanten abgefragten Konzepte ergibt. Zu diesem Zweck betreibt VA ein Online-Portal zum sog. Crowdsourcing: Informanten im Internet sollen dialektale Bezeichnungen der für VA relevanten Konzepte beisteuern. Nicht zuletzt auf diese Weise erhält der VA-Datenbestand eine diachrone Dimension (die jedoch in eingeschränktem Maß auch schon durch die unterschiedliche Entstehungszeit der Sprachatlanten gegeben war).

Die Daten für das statistische Praktikum können über eine MySQL-Schnittstelle zur Verfügung gestellt werden (relationales Datenformat). Aus Sicht von VA können die statistischen Analysen über folgende Variablen erfolgen:

  • Georeferenzierung (lat/lng)
  • Konzept
  • Bezeichnung
  • Basistyp
  • Sprachfamilie
  • Genus
  • Chronoreferenzierung (einfache Unterscheidung zwischen Atlasmaterial und Crowd)

Aus Sicht von VA könnte man aus statistischer Sicht vielleicht folgende Fragen stellen:

  • Verteilung von Basistypen auf Sprachgebiete, bezogen auf Konzepte
  • Verteilung von Morphtypen bezogen auf regionale Verteilung bezogen auf Konzepte
  • Variabilität von Bezeichnungen in Bezug auf Konzepte (Anzahl verschiedener Bezeichnungen pro Konzept bezogen auf Konzeptdomäne -> charkteristische Zusammenhänge, z.B. höherer Wert bei Produkten als bei Geräten oder Gebäuden)
  • Verteilung von Basistypen in Bezug auf Konzepte (breite, gleichmäßige Streuung über verschiedene Konzeptdomänen oder gebunden an spezifische?)
  • Häufung romanischer Basistypen in der Nähe von Zentren lateinischer Inschriftenfunde?
  • Häufung lateinischer Inschriften in der Umgebung von Ortschaften, die auf der Tabula Peutingeriana erscheinen

CSV-Daten (31.10.2019)

Kontakt

Thomas Krefeld (thomas.krefeld@lmu.de)

Stephan Lücke (luecke@lmu.de)