Geolinguistik, Kleinsprachen und die FAIR-Prinzipien (am Beispiel von VerbaAlpina) (Zitieren)

Thomas Krefeld | Stephan Lücke
(1694 Wörter)

Dieser Beitrag wurde für die Sektion Rekonstruktion und Erneuerung romanischer Regional- oder Minderheitensprachen im Zeitalter der Digital Humanities des XXXVI. Deutschen Romanistentags verfasst. Der genannte Sektionstitel eröffnet einen außerordentlich weiten Horizont; denn die Ausdrücke, die er zusammenbringt, weisen

  • in die Sprachgeschichte (‘Rekonstruktion’);
  • in die Sprachplanung (‘Erneuerung’);
  • in den Sprachvergleich (‘romanisch’);
  • in die Geolinguistik (‘Regional-’);
  • in die Sprachpolitik (‘Minderheiten-’);
  • in die Sprachsoziologie (‘-sprache)’);
  • in die Neuen Medien (‘Digital Humanities’).

Unser Beitrag ist zwar in der Geolinguistik und in den Neuen Medien zentriert, aber Perspektiven für die anderen Felder lassen sich leicht daraus ableiten, wie angedeutet werden wird.

Romanische Geolinguistik

Ziel des Projekts VerbaAlpina (VA) ist die kleinräumige, d.h. lokale Erfassung des spezifisch alpinen Wortschatzes in den drei im Untersuchungsgebiet gesprochenen Sprachfamilien (Germanisch, Romanisch, Slawisch). Diese systematische Erweiterung der traditionell einzelsprachlichen Dialektologie ist sinnvoll, da zahlreiche Bezeichnungstypen über die Grenzen nur einer Sprachfamilie hinaus verbreitet sind; diese Ausdrücke wurden daher nicht zu Unrecht als Alpenwörter bezeichnet. Die Konzeption, der VA verpflichtet ist, lässt sich als interlinguale Geolinguistik charakterisieren, da Varianten aus mehreren Einzelsprachen zusammengebracht werden; Berücksichtigung finden jedoch ausschließlich georeferenzierbare Belege, wobei  die politische Gemeinde als Bezugseinheit der  Georeferenzierung fungiert. Das potentielle Netz umfasst alle 6990 Gemeinden der so genannten Alpenkonvention.

Dieser Voraussetzung genügen im wesentlichen zwei Typen von Quellen: grundsätzlich die Sprachatlanten und – wenngleich nicht im Grundsatz, sondern im Idealfall – die dialektale Lexikographie. Sobald diese gemeinsame Voraussetzung der Georeferenzierbarkeit gegeben ist, lassen sich beide Quellentypen auch komplementär darstellen, wie es auf den VA-Karten geschieht. So illustriert dieser Kartenausschnitt den Einbezug des DizMT, der einen einzigen Lokaldialekt thesauriert.

Überblicksartige Darstellungen, wie auf der gerade genannten Beispielkarte, sind jedoch nur möglich, wenn die nicht selten zahlreichen lokalen Einheiten zu Gruppen zusammengefasst werden, so wie formˈavo, fromˈazo, fryˈmai, furˈmaj, furmˈaʧ usw., die alle das Konzept KÄSE bezeichnen. Durch die Gruppierung werden die Belege zu Varianten abstrakterer Typen. Systematisch unterschieden werden in VA sogenannte ‘morpho-lexikalische Typen’ und ‘Basistypen’ (vgl. Typisierung; die morpholexikalischen Typen definieren sich über die Wortart, die Konstituenten des Worts (Basis [+ Wortbildungsmorphem]), im Fall von Nomina zudem über das Genus sowie über die Sprachfamilie; nun ist es praktisch, die Typen (d.h. die Klassen von Varianten) auch durch sprachliche Einheiten identifizieren zu können; dazu werden in VA die am besten bekannten/am weitesten verbreiteten Varianten gewählt, also die standardsprachlichen Äquivalente. So wird der morpholexikalische Typ, zu dem alle genannten Beispiele sowie 368 weitere (Stand: 17.9.2019) gehören, durch standardfra. fromage/standardita. formaggio identifiziert.

Noch abstrakter sind die Basistypen; sie gestatten es morpho-lexikalische Typen zu gruppieren, wenn sie eine gemeinsame historische Basis haben; das gilt auch für morpho-lexikalische Typen unterschiedlicher Sprachfamilien, also im Fall von Entlehnungen.   So werden die morpho-lexikalischen Typen fra. fromage/ita. formaggio (m.), formaggia (f.), fra. forme/ita. forma zum Basistyp lat. forma(m) gebündelt oder schweizerdeu. staafel, fra. étable (f.), ita. stabbio (m.) zum Basistyp lat. stabulum.

FAIR

  1. auf der Basis des Ladinia-Arbeitsberichts
  1. Stephan#

Lokale Belege, Typen virtuelle Repräsentation#

Wie die FAIR-Kriterien nun im Einzelnen ausbuchstabiert werden sollten, ist jedoch nicht eindeutig zu beantworten, denn es ergeben sich unterschiedliche Möglichkeiten. Ein geolinguistisches Modell für die virtuelle Abbildung dialektaler Kontinua wird von VerbaAlpina entwickelt. Grundlegend für die Identifikation der Daten ist darin die Georeferenzierung, die auf der Ebene der politischen Gemeinde erfolgt. Zusätzlich zu den Geodaten wird jeder Sprachbeleg einer der drei alpinen Sprachfamilien zugeordnet.

Die Zugehörigkeit kann übrigens nicht automatisch von der Gemeinde auf die Daten ‚vererbt‘ werden, denn es gibt durchaus zweisprachige Orte; so wurden für Selva di Progno oberhalb von Verona von Nutzern des CS–Tools germanische und romanische Belege geliefert, wie der Ausschnitt zeigt:

Zufälliger Ausschnitt aus den Crowd-Daten aus Selva di Progno

Zufälliger Ausschnitt aus den Crowd-Daten aus Selva di Progno

Die Zweisprachigkeit der gelieferten Materialien ist im Übrigen keineswegs überraschend, denn zur Gemeinde gehört die zimbrische Sprachinsel Ljetzan (ita. Giazza). Eine genauere Georeferenzierung auf diese frazione wäre übrigens auch keine Lösung, denn das Zimbrische ist in rapidem Rückgang begriffen, so dass auch im Ortsteil Ljetzan mittlerweile ganz überwiegend  eine romanische Varietät gesprochen wird.

Mit den Geokoordinaten und der Zuweisung einer Sprachfamilie ist eine lokal erhobene sprachliche Einheit hinreichend charakterisiert, um sie eindeutig im Dialektkontinuum zu verankern. Damit die lokalen sprachlichen Einheiten außerdem auch lexikologisch  identifiziert werden, weist VA ihnen (wie eingangs gesagt) einen möglichst weitverbreiteten, im Idealfall standardsprachlichen morpho-lexikalischen Typ zu, wie z.B. im Fall der im Ausschnitt gezeigten Form knest ‘Gehilfe des Hirten’ das deu. Knecht.

Geolinguistische Identifikatoren

Allerdings lassen sich aus der Tatsache, dass diese lokale Form  knest (sowie mehr oder weniger viele andere desselben Ortes auch) sich als Variante eines Typs erweist, für den es auch eine standarddeu. Variante gibt (Knecht) auch nicht im Ansatz Argumente gewinnen, ob man das lokale Zimbrische womöglich als eigenständige Sprache und nicht als Dialekt des Bairischen einstufen sollte.  Diese Frage stellt sich im germanisch- und slawischsprachigen Gebiet der Alpen ohnehin selten, allenfalls noch für das Walserische in manchen italienischen Walsergemeinden sowie für das  Rezijansko in der Val Resia.

Im Hinblick auf die geolinguistische Dokumentation, die in sprachwissenschaftlicher Perspektive unbedingt im Vordergrund stehen muss, ist der Unterschied sekundär und letztlich vollkommen unerheblich, denn jeder Erhebungsort hat potentiell ein mehr oder weniger spezifisches Idiom und alle diese lokalen Idiome sind im Hinblick auf das romanische Kontinuum gleichwertig – vollkommen unabhängig davon, ob ihr gesellschaftlicher Status als ‘Dialekt’ oder ‘Minderheitensprache’ eingestuft wird, oder ob sie in klassifikatorischer Absicht als ‘Kleinsprache’ oder ‘Subdialekt’ eines regional weiterverbreiteten Dialektverbunds eingeschätzt werden. Die romanische Situation muss man im Hinblick auf diese sprachsoziologischen und arealtypologischen Fragen als außerordentlich unübersichtlich bezeichnen. Ganz unterschiedlich motivierte Sprachnamen und klassifikatorische Kategorien werden oft vermischt.

Das Problem muss hier nicht im Detail beschrieben werden; es reicht ein Blick auf das Rätoromanische in der Schweiz.   Mit diesem Ausdruck wird in der Bundesverfassung eine der vier ‘Landessprachen’ bezeichnet. Im Art. 4  heißt es ganz lapidar:

„Die Landessprachen sind Deutsch, Französisch, Italienisch und Rätoromanisch.“1 (Bundesverfassung)

Es wird in Art. 70 weiterhin spezifiziert, dass diese Sprache auch ‘Amtssprache’ ist:

„Die Amtssprachen des Bundes sind Deutsch, Französisch und Italienisch. Im Verkehr mit Personen rätoromanischer Sprache ist auch das Rätoromanische Amtssprache des Bundes.“ (Art. 70 Sprachen)

Auch in der Verfassung des Kantons Graubünden ist vom ‘Rätoromanischen’ die Rede: 

„Art. 3 Sprachen
1 Deutsch, Rätoromanisch und Italienisch sind die gleichwertigen Landes- und Amtssprachen des Kantons.
[…]
3 Die Gemeinden bestimmen ihre Amts- und Schulsprachen im Rahmen ihrer Zuständigkeiten und im Zusammenwirken mit dem Kanton. Sie achten dabei auf die herkömmliche sprachliche Zusammensetzung und nehmen Rücksicht auf die angestammten sprachlichen Minderheiten.“ (VerfassungGR)

Dem verfassungsrechtlichen Gebrauch entspricht die Sprachkodierung in ISO 693-3 , denn dort ist ebenfalls für  ‚Rätoromanisch‘ (bzw. eng. Romansh) ein Identifikator vorgesehen, nämlich roh. Diese Kodierung lässt sich zwar als ein verlässliches Normdatum in geolinguistischen Metadatensätzen verwenden; es ist jedoch nicht genau genug, denn ‘das’ Rätoromanische in Graubünden existiert in Gestalt von mindestens 7 Varietäten, von denen 6 auch in der Schriftlichkeit ganz selbstverständlich und mit lang zurückreichender Tradition gebraucht werden.2 Daher sind weitere Sprachcodes erforderlich, die z.B. vom Wikidataprojekt oder vom Glottolog angeboten werden:3

Varietäten gemäß Lia Rumantscha Wikidata QID Glottolog Verfassungen CH, GR ISO-693.3
„Standardsprache“ Rumantsch Grischun „Rätoromanisch“ roh
„Schriftidiome“ Puter
Vallader Q690226 Lower Engadine
Surmiran Q690216 Surmiran-Albula
Sursilvan Q688348 Sursilvan
Sursilvan-Oberland
Sutsilvan Q688272 Sutsilvan
geprochener Dialekt Jauer Q690181

Man beachte, dass Wikidata das differenzierteste Angebot an IDs macht. Unabhängig davon, ob sie sich auf Dialekte oder (Klein)Sprachen beziehen, sind diese Codes mindestens dann für die geolinguistische Datenstrukturierung relevant, wenn sie in Referenzwörterbüchern explizit erscheinen, wie zum Beispiel in S, V oder P.

Glottolog identifiziert zwar die „Schriftidiome“, bezeichnet sie jedoch teils (Puter, Vallader) nur mit englischen Termini. Darüber werden die in der Tabelle (Spalte Glottolog) identifizierten Idiome weiterhin auf der spezifischsten Ebene einer zwölfstufigen Hierarchie positioniert, die teils auf rezent geographischen, teils auf genealogischen Kriterien beruht (in Klammern steht die Anzahl der erfassten Sprachen)4:

Taxonomie des Glottolog

1.▼Indo-European (588)
  • Albanian (4)
  • Anatolian (10)
  • Armenic (3)
  • Balto-Slavic (23)
  • Celtic (14)
  • Dacian
  • Germanic (106)
  • Graeco-Phrygian (11)
  • Indo-Iranian (324)
  • 2.▼Italic (86)
    • 3.▼Latino-Faliscan (83)
      • Faliscan
      • 4.▼Latinic (82)
        • Imperial Latin (81)
          • 5.►Latin
          • Romance (80)
            • Eastern Romance (5)
            • 6.▼Italo-Western Romance (70)
              • Italo-Dalmatian (5)
              • 7.▼Western Romance (65)
                • 8.▼Shifted Western Romance (63)
                  • 9.▼Northwestern Shifted Romance (31)
                    • Gallo-Italian (8)
                    • 10.▼Gallo-Rhaetian (23)
                      • Friulian
                      • Ladin
                      • Oil (20)
                      • 11.▼Romansh
                        • Lower Engadine
                        • Rumantsch Grischun
                        • Surmiran-Albula
                        • Sursilvan
                        • Sursilvan-Oberland
                        • Sutsilvan
                        • Upper Engadine

Jede taxonomische Ebene ist durch einen (hier nicht wiedergegebenen) Identifikator ansprechbar, so dass sich natürlich die Frage erhebt, ob diese auf den ersten Blick elaborierte Taxonomie, speziell die sechs romanischen Stufen für die digitale Strukturierung geolinguistischer Kontinua aus der Romania – im Sinne der FAIR-Kriterien F und I (Findable, Interoperable) – einen nützlichen Fortschritt bedeutet. Die Antwort ist ebenso klar wie kurz: nein.

Es fehlt den Kategorien jedenfalls am Ort, wo sie bereitgestellt werden, jegliche Transparenz, da keine Daten hinterlegt sind und keinerlei Kriterien mitgeliefert werden, die sich auf konkrete Daten anwenden ließen; dazu müsste gesagt werden, wo z.B. der Westen („Western Romance“) beginnt, wie eine alternative Trennung in ‚Gallo-Italian‘ und ‚Gallo-Rhaetian‘ abgeleitet wird usw. Von der fehlenden  Operationalisierung dieser klassifikatorischen Kategorien abgesehen muss ganz grundsätzlich bezweifelt werden, ob sich derartige top down formulierte trennscharfe Klassifikatoren überhaupt auf Kontinua anwenden lassen. Der einzig mögliche Weg für eine raumbezogene Klassifikation geht bottom up durch die metrische Bestimmung gemeinsamer bzw. nicht-gemeinsamer Merkmale, also im Sinne einer induktiven, datengetriebenen Dialektometrie, deren Präsentation stets gestattet zu den zugrunde liegenden Daten zurückzugehen und insofern auch reusability verspricht. Voraussetzung dafür ist jedoch, dass nicht nur die lokalen Idiome, sondern alle relevanten sprachlichen Merkmale mit eindeutigen Identifikatoren versehen werden; Ansätze dazu finden sich bereits im bereits erwähnten Wikidataprojekt in Gestalt von QIDs für grammatische Kategorien und LIDs für lexikalische Typen. Dieser Bestand sollte durch alle geolinguistischen Projekte im Sinne der FAIR-Prinzipien systematisch ausgebaut werden. Angesichts dieser eigentlich fundamentalen Herausforderung ist die skizzierte Taxonomie nicht nur unnütz sondern schädlich.


  1. Französisch: „Les langues nationales sont l’allemand, le français, l’italien et le romanche.“ | Italienisch: „Le lingue nazionali sono il tedesco, il francese, l’italiano e il romancio.“ | Rätoromanisch: „Las linguas naziunalas èn il tudestg, il franzos, il talian ed il rumantsch.“ 

  2. Weitaus schwieriger ist die Frage der Klassifikation im Hinblick auf das Dolomitenladinische, da die Extension dieses Klassifikators außerordentlich umstritten ist. 

  3. Außerdem ist der Ethnologue zu nennen. 

  4. Die Ziffern wurden vom Verf. hinzugefügt. 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.