VerbaAlpina – Sprachwissenschaftliche Grundlagen und Aspekte der digitalen Geolinguistik (Zitieren)

Christina Mutter


(1652 Wörter)

Dieser Beitrag wurde von Christina Mutter und Beatrice Colcuc anlässlich eines Vortrags am 16.05.2022 im Rahmen der Ringvorlesung "Einblicke in digitale sprachwissenschaftliche Forschungsprojekte“ verfasst.

1. Projektbeschreibung

  • VerbaAlpina. Der alpine Kulturraum im Spiegel seiner Mehrsprachigkeit
  • Förderung durch die DFG seit 2014 als Langfristvorhaben
  • 3. Laufzeit seit 11/2020-10/2023 (Perspektive bis 2026)
  • Kombination aus Sprachwissenschaft, Volkskunde und Informationstechnologie im Sinne der Digital Humanities
  • Kooperation des Instituts für Romanische Philologie mit der IT-Gruppe Geisteswissenschaften (ITG): Team
  • VerbaAlpina ist eine webbasierte Forschungsumgebung, deren Aufgaben und Leistungen den folgenden Bereichen zugeordnet werden können:

2. Forschungsgegenstand

  • Gegenstand von VerbaAlpina ist der dialektale Wortschatz der drei Sprachfamilien im Alpenraum: Romanisch, Germanisch, Slawisch (Romania alpina, Germania alpina, Slavia alpina, Karte)

 

  • alle 3 Sprachfamilien sind durch dialektale Kontinua repräsentiert
  • romanische Zone ist stärker fragmentiert als die germanische und diese wiederum stärker als die slawische
  • alpine Dialekte sind i.d.R. historisch primär, d.h. in der Gegend entstanden, wo sie gesprochen werden
  • nach Herausbildung Überdachung durch historisch sekundäre, später entstandene Standardsprachen
  • Dialekte werden lokal und meist ausschließlich im mündlichen Sprachgebrauch verwendet
  • Verwendung von Standardsprachen auf regionaler oder sogar gesamtstaatlicher Ebene im Bereich der institutionellen und massenmedialen Schriftlichkeit --> Alphabetisierung der Kinder, Kommunikation der Bürger mit der Verwaltung, Produktion literarischer Texte usw.
  • neben den großen Staatssprachen Französisch, Italienisch, Deutsch und Slowenisch in der Romania alpina mehrere regional etablierte Kleinsprachen: Okzitanisch (CH, IT), Frankoprovenzalisch/Arpitanisch (Aostatal), Bündnerromanisch, Dolomitenladinisch, Friaulisch
  • in der Slavia alpina und Germania alpina jeweils nur eine Standardsprache: Slowenisch und Deutsch
  • im Deutschen koexistierende nationale Standardvarietäten für die Schweiz, für Deutschland und für Österreich

 

  • alpine Sprachräume = zweistöckig
  • beide Ebenen sind in osmotischem Austausch: Dialekte nehmen Elemente aus den Standardsprachen auf und umgekehrt
  • dazu kommt: Sprecher mancher alpinen Gebiete sprechen nicht nur eine, sondern zwei oder drei Standardsprachen
  • Entlehnungsrichtung (Dialekt → Standardsprache oder Standardsprache → Dialekt) hängt vom KONZEPT ab

 

  • VerbaAlpina dokumentiert Wortareale, die nicht selten die Grenzen einer der drei Sprachfamilien überschreiten und versteht sich daher als interlinguale Geolinguistik
  • Verbreitungszonen der 3 Sprachfamilien lassen sich nicht auf spezifische Staaten beschränken (Karte)
  • Germanisch ist durch alemannische und bairische Varietäten vertreten, bei manchen walserischen und altbairischen (zimbrischen) Sprachinseln auf der Alpensüdseite kaum Bezug zur germanischen Sprachfamilie erkennbar
  • Varietäten des romanischen Kontinuums können mehreren Sprachen zugeordnet werden: Französische, Italienisch, Okzitanisch, Frankoprovenzalisch, Bündnerromanisch, Dolomitenladinisch und Friaulisch
  • Slawisch ist durch slowenische Dialekte vertreten, die außer in Slowenien auch in italienischen und österreichischen Gemeinden verwendet werden

Beispiel: lat. *excŏcta --> ist in allen drei Sprachfamilien des Alpenraums belegt

  • Ziel: Herausarbeitung von (vor allem lexikalischen) Merkmalen, die über die einzelnen Dialekt- und Sprachgrenzen hinweg verbreitet sind und so die ethnolinguistischen Gemeinsamkeiten hervortreten lassen

2.1. Untersuchungsgebiet: Der Alpenraum

  • Untersuchungsgebiet ist auf den Zuständigkeitsbereich der Alpenkonvention beschränkt
  • Alpenkonvention: internationales Abkommen (1995) zwischen den 8 Alpenländern sowie der EU für eine nachhaltige Entwicklung und den Schutz der Alpen
  • Oberfläche von 190,600 km2
  • umfasst Teile von 6 verschiedenen Ländern (D, A, CH, I, F, SLO) sowie 2 komplette Länder (FL, MC)
  • Untersuchungsgebiet ist länderübergreifend und umfasst die Sprachen Deutsch, Französisch, Italienisch, Slowenisch und Rätoromanisch und ihre jeweiligen Dialekte

Was macht den Alpenraum als Untersuchungsgebiet so interessant?

  • weitgehende ethnographische und topographische Homogenität (geologische Ähnlichkeit, Beschränkung auf einzelne traditionelle Wirtschaftsformen)
  • aber: starke sprachliche Heterogenität (3 Sprachfamilien: mehrere Einzelsprachen, große Dialektvielfalt)
  • Grenzgebiet mehrerer Staaten
  • vergleichsweise dichtes Netz von Sprachatlanten und Wörterbüchern

2.2. Konzeptdomänen

 

Projektphase I: 10/14 -10/17, Kultur (Almwirtschaft/Milchverarbeitung)

Projektphase II: 11/17-10/20, Natur (Landschaftsformationen/Wetter/Fauna/Flora)

Projektphase III: 11/20-10/23, Moderne Lebenswelt (Ökologie/Tourismus)

Übersicht Konzeptdomänen

  • die Auswahl des Wortschatzes erfolgt in der Tradition der romanistischen Ethnolinguistik
  • Ethnolinguistik = sprachwissenschaftliche Untersuchung europäischer und nichteuropäischer Kulturen
  • dialektologische Forschungen im Sinn von Cardona (Cardona 1995) sind dann ethnolinguistisch, wenn sprachliche Daten dabei im engen Zusammenhang mit der Alltagskultur der Sprecher erhoben und analysiert werden
  • in der romanistischen Tradition wurde ethnolinguistische Forschung durch den AIS (Sprach- und Sachatlas Italiens und der Südschweiz) etabliert

Zugang zu Konzeptdomänen über:

Zugang zu den Konzeptdomänen über die interaktive Karte

Zugang zu den Konzeptdomänen über das Crowdsourcing-Tool

2.3. Forschungsziele

  • Selektive und analytische Erschließung des einzelsprachlich und dialektal stark fragmentierten Alpenraums in seiner kultur- und sprachgeschichtlichen Zusammengehörigkeit
  • Erkennen von Zusammenhängen hinsichtlich der Etymologie der einzelnen Dialektwörter
  • Überwindung der traditionellen Beschränkung auf Nationalstaaten
  • Aufbau eines einzelsprachübergreifenden Portals mit fünf Funktionsbereichen

4. Daten

4.1. Sprachatlanten und Wörterbücher im Alpenraum

Die folgende Karte zeigt die Erhebungspunkte der einzelnen Atlanten und Wörterbücher, die den alpinen Sprachraum abdecken:

Sprachatlanten und Wörterbücher im Alpenraum

Sprachatlanten und Wörterbücher im Alpenraum

Sprachatlanten und Wörterbücher im Alpenraum

4.1.1. Typologie der Datenquellen

Die Sprachatlanten, die von VA als Datenquelle verwendet werden, kennzeichnen sich durch folgende Merkmale:

  1. Daten sind georeferenzierbar: die Kommunen gelten als kleinste Einheit

  2. Unterschiedliche Sprachfamilien: romanisch, germanisch, slawisch

  3. Unterschiedliche Forschungstraditionen: Romanistik, Germanistik, Slawistik

    • Romanistische Sprachatlanten:
      • Analytische Karten: Die Äußerungen werden so wiedergegeben, dass die Dokumentation im Vordergrund steht und die Aufdeckung der räumlichen Beziehungen zwischen den dokumentierten Formen dem Leser überlassen bleibt (Beispiele: AIS-Karte 1401, il fienile; ALF-Karte 1, abeille)
      • Transkriptionssystem Böhmer-Ascoli
    • Germanistische Sprachatlanten:
      • Punktsymbolkarten: durch 'synthetische' Symbolvergabe werden auf der Karte die räumlichen Relationen zwischen den Äußerungen wiedergegeben
      • Transkriptionssystem Theutonista

Beispiel:

VALTS IV, 36 1, Molke (Käsewasser)

VALTS IV, 36 1, Molke (Käsewasser)

TSA, Karte 16, das Wetter

TSA, Karte 16, das Wetter 

  • SLA: Slovenischer Sprachatlas
    • Enthält Punktsymbolkarten (s.o.)
SLA, Karte 55, hlev za krave 'der Stall'

SLA, Karte 55, hlev za krave 'der Stall'

4. Unterschiedliche Schwerpunkte: an ethnographischen Aspekten interessiert?

Ethnographische Informationen sind für die Sprachgeschichte wichtig.

  • BSA (Bayerischer Sprachatlas) / ALD-I und ALD-II (Atlant linguistich dl ladin dolomitich y di dialec vejins; Sprachatlas des Dolomitenladinischen und angrenzender Dialekte) enthalten keine bzw. sehr wenige Karten zu fundamentalen Konzepten wie SENN, MELKEN, LAB, HIRTE usw. sind nicht enthalten.
  • AIS (Sprach- und Sachatlas Italiens und der Südschweiz) enthält hingegen viele Karten zu ethnographischen Konzepten und sogar Zeichnungen von typisch alpinen Gegenständen wie die Karte 1206, la zangola.

4.2. Crowdsourcing

Definition:

"Crowdsourcing ist eine interaktive Form der Leistungserbringung, die kollaborativ oder wettbewerbsorientiert organisiert ist und eine große Anzahl extrinsisch oder intrinsisch motivierter Akteure unterschiedlichen Wissensstands unter Verwendung moderner IuK-Systeme auf Basis des Web 2.0 einbezieht."Martin/Lessmann/Voß 2008

Crowdsourcing bei VerbaAlpina: Sprecher eines alpinen Dialektes werden direkt angesprochen und dazu aufgerufen, Dialektwörter zu liefern

Parallel zu den gedruckten bzw. digitalen Datenquellen (s.o.), sammelt VerbaAlpina über das Crowdsourcing-Tool neue Daten, die von Sprechern eines alpinen Dialektes kommen.

Ziele des Crowdsourcing:

  1. Inkonsistenzen zwischen den bereits vorliegenden Quellen ausgeglichen
  2. Lücken bzw. Ungenauigkeiten beseitigen
  3. überkommene Bezeichnungen bzw. Geräte als solche kennzeichnen

Link zum CS-Tool

  • die blauen runden Symbole zeigen die Anzahl an Dialektwörtern, die pro Kommune geliefert wurden
  • Statistik der Crowdsourcing-Aktivität: Link

4.3. Zwischenfazit

  • Heterogenität der Daten
  • Ziele: Struktur
  • Prinzipien: leichte Vergleichbarkeit der Daten und Quellentreue

5. Datenaufbereitung

Drei Schritte wichtig:

5.1. Transkription

Näheres dazu in der nächsten Stunde.

  • Erster Schritt der Datenhomogenisierung
  • Transkriptionsregeln: jedem atlasspezifischen Zeichen entsprechen eins oder mehrere ASCII-Zeichen
  • Crowdsourcing-Daten werden nicht transkribiert
Das Transkriptionssystem von VerbaAlpina

Das Transkriptionssystem von VerbaAlpina

Folgende Tabelle zeigt die Daten in der Tabelle Aeusserungen:

5.2. Tokenisierung

  • Die Sprachdaten (transkribiert oder aus dem CS) werden in einzelne Tokens segmentiert
  • Die Sprachbelege werden in IPA konvertiert
  • Der Tokenisierungsprozess schaut wie folgt aus:
Beleg in Beta Code Beleg in IPA KONZEPT
una1 mu:g/a1 da1 va/c)/ unɑ myʤɑ dɑ vˡaʨ KUHHERDE
Tokenisierung
una1 unɑ ARTIKEL
mu:g/a1 myʤɑ HERDE
da1 PRÄPOSITION
va/c)/ v ˡaʨ KUH
  • Die Tokenisierung erfolgt über ein spezielles Tool (id_stimulus 1550)

5.3. Typisierung

  • Eine der zentralen Aufgaben von VerbaAlpina
  • Gruppierung von Sprachbelegen je nach sprachlichen Merkmalen
  • Ziel der Typisierung: Vielfalt der zalreichen sprachlichen Varianten in überschaubarer Weise zu strukturieren
  • Definition von "morpho-lexikalischen Typ": Klasse von sprachlichen Ausdrücken / Vertreter einer Gruppe von phonetischen Varianten

5.3.1. Morpho-lexikalische Typisierung

  • Sprachbelege, bei denen die folgenden Eigenschaften übereinstimmen, werden zum gleichen morpho-lexikalischen Typ gruppiert:
    • Sprachfamilie
    • Wortart
    • einfaches Wort vs. affigiertes Wort
    • Genus
    • Lexikalischer Basistyp
Token kˈaːvra kabrˈuŋ kavrˈɛt kawrˈɛt
Sprachfamilie roa roa roa roa
Wortart sub sub sub sub
Affix - + + +
Genus f m m m
morpho-lexikalischer Typ capra caprone capretto capretto
Basistyp lat. capra lat. capra lat. capra lat. capra
  • Die Form eines morpho-lexikalischen Typs wird durch die Lemmata der Referenzwörterbücher repräsentiert:
    • Germanisch / Slawisch: nur eine standardisierte Einzelsprache (Deutsch und Slowenisch)
    • Romanisch: Alle morpho-lexikalischen Typen werden, sofern vorhanden, durch die französischen und italienischen Standardformen repräsentiert (beurre/burro; lait/latte); Falls nur eine dieser beiden Standardsprachen eine passende Variante hat, erscheint nur diese, wie im Fall von ricotta; Wenn in keiner der beiden romanischen Referenzsprachen eine Variante des Typs existiert, wird auf den Eintrag eines dialektalen Referenzwörterbuchs zurückgegriffen (BLad, LSI)
    • Für den Fall, dass keine verlässlichen Einträge in Dialektwörterbüchern verfügbar sind, schlägt VerbaAlpina einen morpho-lexikalischen Typ mitsamt grafischer Repräsentation ('VA') vor
  • Basistyp = ältester belegter Ausdruck (≅ Etymon, aber Etymon bezieht sich auf die unmittelbar vorhergehende Sprachschicht)

6. Zugriff auf die Daten

6.1. Interaktive Karte

6.2. LexiconAlpinum

Link

  • alphabetisch geordnete Liste der von VerbaAlpina gesammelten morpho-lexikalischen Typen, Basistypen und Konzepten
  • Sprachwissenschaftliche Kommentare: bei unzureichenden Informationen in den Referenzwörterbüchern oder bei zentralen Konzepten wie KÄSE, BUTTER, ALMHÜTTE usw.
  • Verschiedene Optionen durch Icons:
    • Daten auf der Interaktiven Karte visualisieren
    • Eintrag zitieren (durch den direkten Link)
    • Klick auf "Daten" führt zu sämtlichen Informationen, die in den Infowindows der interaktiven Karte versammelt sind (Links zu korrespondierenden Artikeln in Referenzwörterbüchern, Links zu Wikidata-Datenobjekten usw.)
      • Ziel: das VA-Material lexikographisch und enzyklopädisch kontextualisieren
  • Beispiel: Anke (gem m.)

6.3. API

  • API: "application programming interface" ‚Anwendungsprogrammierschnittstelle'
  • API von VerbaAlpina

Näheres dazu in der nächsten Stunde.


Bibliographie

  • Cardona 1995 = Cardona, Giorgio Raimondo (1995): La foresta di piume. Manuale di etnoscienza, Roma, Bari, Laterza
  • Martin/Lessmann/Voß 2008 = Martin, Nicole/ Lessmann, Stefan/ Voß, Stefan (2008): Crowdsourcing: Systematisierung praktischer Ausprägungen und verwandter Konzepte, Berlin, in: Bichler, Martin: Multikonferenz Wirtschaftsinformatik 2008, GITO-Verlag. Link