Takeover des Instagramchannels der LMU (Zitieren)

Stephan Lücke


(95 Wörter)

Text der Videos von SL:

Video SL 1

Der Mehrwert von VerbaAlpina besteht in der vollständigen und konsequenten Umstellung der Dialektologie auf Digitalität und Webtechnologie. Sogenanntes Crowdsourcing im Internet ermöglicht uns, von Dialektsprechern im Alpenraum neue Dialektwörter zu sammeln. Ihr wollt mitmachen? Dann geht auf unsere Website!

Video SL 2

Die Idee zu VerbaAlpina? Sie kam uns auf einer Tour auf die Zugspitze. Wir hatten uns vorher bereits jahrzehntelang mit Dialektologie beschäftigt, wir wussten, dass die Sprachwissenschaft den Alpenraum nie als Gesamtheit betrachtet hat, sondern nur in seiner politischen, sprachlichen und kulturellen Zersplitterung. Das wollten wir ändern.

(Unsere) Prinzipien der virtuellen Geolinguistik (Zitieren)

Thomas Krefeld | Stephan Lücke
Schlagwörter: DH , Digital Humanities , FAIR , FAIR Prinzipien , Geolinguistik , FDM , Forschungsdatenmanagement

(3982 Wörter)
Dieser Beitrag wurde für den Workshop Neue Wege der romanischen Geolinguistik Vers. 2.0 (2021) verfasst (Schneefernerhaus, 4.-5.11.2021). Für die Einladung mitzumachen danken wir Joachim Steffen (Augsburg).
Übersicht
I. Vorgeschichte: Drei Generationen von Sprachatlanten
II. Unsere 8 Prinzipien für die dritte Generation

1. Strukturierte digitale Daten als Arbeitsgrundlage
2. Bezug der sprachlichen Daten zu außersprachlichen Normdaten
3. Forschungsdatenmanagement (FDM)
4. Adressierung und interaktive Einbindung eines breiten Publikums
5. Offene und dynamische Datenbestände
6. Virtuelle Kartographie auf georeferenzierter Grundlage
7. Möglicher Einbezug nicht sprachlicher Kontextdaten
8. Überwindung der Gattungsgrenzen

Appendix: Ein Beispiel für Aggregation und Gattungsverschränkung

I. Vorgeschichte: Drei Generationen von Sprachatlanten

Die im Folgenden vorgestellten Prinzipien sind das Ergebnis von 16 Jahren gemeinsamer  Arbeit  an vier geolinguistischen Projekten, die vorab kurz in der Geschichte der Sprachatlanten positioniert werden sollen. Dafür ist es hilfreich, drei Generationen zu unterscheiden; sie unterscheiden sich: 

  • in der Modellierung räumlicher Variation;
  • im Verständnis der Repräsentativität sprachlicher Daten vor dem Hintergrund der selektierten Informanten, Orte und Elizitationsverfahren;
  • in der medialen Konzeption und Realisierung.

Das Paradigma der ersten Generation ist eindimensional und dem Axiom des repräsentativen Einzelinformanten verpflichtet; das prototypische, in der Romanistik und auch darüber hinaus wegweisende Werk ist der AIS.

Die zweite Generation ist pluridimensional und untersucht die räumliche Variation in mehreren Dimensionen; die Abhängigkeit der sprachlichen Daten vom Sprecher und von der Art der Elizitation rückt ins methodologische Zentrum der Arbeit. Exemplarisch begründet wurde dieses Paradigma durch den ADDU.

In der dritten Generation wird konsequent mit Webtechnologie gearbeitet; in der Konzeption und und Durchführung sind sprachwissenschaftliche und mediale Aspekt untrennbar miteinander verflochten. Die Entstehung dieses Paradigmas ist also nicht nur wissenschaftsintern zu sehen, da ihre Voraussetzungen durch den informationstechnischen Fortschritt geliefert wurden (vgl. Wissenschaftskommunikation im Web).

Die Generationsmetapher ist in der historischen Staffelung der drei Typen begründet; sie ist allerdings insofern nicht ideal, als auch heute – in der Phase der dritten Generation – durchaus noch Projekte auf den Weg gebracht wurden und werden, die den Regeln der beiden vorhergehenden Generationen folgen (z.B. folgt der Online-Atlas VIVALDI dem Paradigma der 1. Generation). Den Anforderungen aller drei Generationen können digitale Arbeitsweisen entsprechen, allerdings kann man den Zielen der dritten Generation ausschließlich mit digitalen Mitteln gerecht werden. Unsere eigene Arbeit reflektiert den Übergang von der zweiten zur dritten Generation, auf die sich die hier formulierten Prinzipien beziehen. Sie zielen auf Generelles, unabhängig von den speziellen thematischen Anforderungen der Einzelprojekte, werden jedoch an Einzelprojekten illustriert, vor allem am aktuell noch laufenden Projekt VerbaAlpina.

2. Generation   3. Generation
AsiCa  Asica 2.0
ASD
  Metropolitalia
  VerbaAlpina
geolinguistische Projekte der Autoren

II. Prinzipien für die dritte Generation

1. Strukturierte digitale Daten als Arbeitsgrundlage

Der Ausdruck ‘Digitalisierung’ ist keineswegs eindeutig; um die Anforderungen zu differenzieren, unterscheiden wir mehrere Digitalisierungsgrade. Für die elektronische Datenanalyse und Visualisierung in einer Form, wie VerbaAlpina sie präsentiert, sind  strukturierte Daten erforderlich, die der Stufe D3 im Sinne des folgenden Schemas entsprechen:

Grad der
Digitalisierung
Etikett., Erweit., Verknüpf. Daten-
export
D3 Tabelle db
csv
strukturierter elektronischer Text XML
SQL
CSV
txt
...
HTML
PDF
PS
Papier
D2 ↑ Textdatei txt
doc
linearisierter elektronischer Text ← praat
D1 ↑ Scan jpg binärer Code wav, mp3
D0 ↑ Papier Schrift/Bild Audio

Die Grundlage D3 ist jedoch anspruchsvoll, und je nach Quelle gibt es unterschiedliche, vor allem unterschiedlich aufwändige Arten, wie die Daten überhaupt erst auf dieses Niveau gehoben werden können; gelegentlich ist das auch nicht möglich.

Die Anforderung ist eine doppelte: Die Daten müssen digital *und* strukturiert sein. Mit der rein technischen Dimension der Digitalisierung ist vergleichsweise leicht umzugehen:

  • auf Papier gedruckter Text ⇒ OCR oder Abtippen ⇒ elektronischer Text
  • Audiodatei ⇒ ASR (automatic speech recognition; STT: speech to text) oder abtippen (Praat) ⇒ elektronischer Text (ASR bislang nur bei Standardsprache brauchbar)

Besonders wichtig: Die Datenstrukturierung

Strukturierung bedeutet stets: Erzeugung von Metadaten (Merkmale "Typ", "Quelle", "Ort", "Bedeutung" ...) und deren Zuordnung zu den Daten (als Merkmalsausprägungen)

Daten analog Daten digital Daten digital und strukturiert
tˈeːʥɑ
Typ Quelle Ort Bedeutung
tegia AIS Ems SENNHÜTTE

Beleg: AIS 1192 (LA CASCINA DI MONTAGNA), Ort 5 (Ems) (VA-Beleg S293; Discover@UB)

strukturiert ASLEF-Tafeln VerbaAlpina
nicht/teil- strukturiert VALTS Idiotikon, WBOe
analog digital

Bei gegebenen Strukturierungen ist häufig eine Umstrukturierung erforderlich: Struktur A ⇒ Struktur B

Je nach Strukturierungs- und Digitalisierungsgrad gestaltet sich die Datenerfassung mehr oder weniger aufwendig. Optimal für Datenaustausch, Vernetzung und Nachnutzung sind sog. APIs. Erst allmählich werden APIs in lexikographischen online-Ressourcen implementiert. Ein Beispiel ist das "Digitale Wörterbuch der Deutschen Sprache" (DWDS; API: https://www.dwds.de/d/api), das allerdings für VerbaAlpina als Quelle nur eine Nebenrolle spielt. VerbaAlpina hat für seinen Datenbestand eine API eingerichtet (https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=8844&db=211).

Einige Beispiele für Quellen, die von VA erfasst werden, vor dem Hintergrund von Digitalisierung und Strukturierung

Teilweise geringer Aufwand: ASLEF-Tafeln

Tafel 45 des ASLEF. Unter jedem Konzept sind die ortstypischen Bezeichnungen gelistet. Die Zahlen vor den Einzelbelegen stehen für die jeweiligen Ortschaften.

Listen von der Art der ASLEF-Tafeln sind zumindest theoretisch mit OCR-Verfahren wenigstens teilautomatisiert erfassbar. Es ist allerdings stets abzuwägen, ob die Entwicklung eines solchen Verfahrens tatsächlich einen Zeitvorteil bringt. VerbaAlpina hat bislang auf entsprechende Entwicklungen verzichtet.

Beispiel für einen Sprachatlas: Vorarlberger Sprachatlas mit Einschluss des Fürstentums Liechtenstein (VALTS)

Karte IV 73 des VALTS: Mischung

Vergleichsweise großen Aufwand verursacht die Erfassung der Atlaskarten des Vorarlberger Sprachatlas' (VALTS). Die Karten liegen zum einen nur analog, gedruckt auf Papier vor. Auf einer Karte sind unterschiedliche Konzepte und deren Bezeichnungen dokumentiert, lexikalische Typen stehen neben Sprecherbelegen, die Zugehörigkeit zu Sprachfamilien ist durch Farbe kodiert. Die strukturierte Erfassung der Daten kann nur manuell erfolgen. Maschinelle Verfahren sind nicht möglich. Die Arbeit muss von einem Menschen gemacht werden. Dies bedingt u. a. hohen Zeitaufwand und entsprechende Personalkosten.

Beispiel für ein Wörterbuch: Schweizerdeutsches Idiotikon

Ähnlich wie im Fall des VALTS liegt hier eine maschinell nicht erfassbare Mischung unterschiedlicher Entitäten vor. Auch hier ist die Datenerfassung nur durch Personaleinsatz möglich und entsprechend aufwendig.

Ein positives Beispiel ist das WBOe.

Digitalisierung der analogen Handzettel durch das Projekt WBOE. Nach einer Zwischenstation mit TUSTEP liegt das Material jetzt im XML-Format vor.

Dieses Projekt hat mit der Last seiner frühen Entstehungszeit zu kämpfen. Die Datenerfassung erfolgte rein analog, das gesammelte Material liegt in Form von ca. 3,6 Millionen Handzetteln vor. Mittlerweile liegt das Material strukturiert in XML-Dateien vor, die wiederum gleichsam als Backend für die online-Publikation im Rahmen des "Lexikalischen Informationssystems Österreich", LIÖ, dient (s. https://www.oeaw.ac.at/de/acdh/sprachwissenschaft/projekte/wboe/materialbasis, "Digitalisierung des Handzettelkatalogs"). Zu fragen bleibt allenfalls, warum die XML-Dateien anscheinend nicht in ihrer Gesamtheit der Öffentlichkeit zur Verfügung gestellt werden. VerbaAlpina vermeidet das XML-Format, da es nach unserer Einschätzung und Erfahrung umständlich bei Konvertierung und Analyse ist. VerbaAlpina nutzt intern ausschließlich das relationale Datenformat, organisiert sein Sprachmaterial also in Tabellen. Ein Export im XML-Format ist jedoch möglich (Beispiel: VA-Einträge zum Konzept C1, SENNHÜTTE der VA-Version 211).

Von VerbaAlpina entwickelte Tools zur Digitalisierung und strukturierten Datenerfassung

Für die ‘Hebung’ auf D3 müssen u.U. erst geeignete Tools entwickelt werden. VerbaAlpina hat zu diesem Zweck im wesentlichen zwei, als WordPress-Plugins implementierte, Hilfsmittel entwickelt:

Das Transkriptionstool (Link)

Das Transkriptionstool von VerbaAlpina

Das Transkriptionstool steuert die Datenerfassung, indem es dem Transkriptor (meist Hilfskräfte) vorgibt, welche Eintragungen auf einer Sprachatlaskarte jeweils erfasst werden sollen. Auf diese Weise wird die Fehleranfälligkeit reduziert und ein systematisches Vorgehen begünstigt. In der Grundeinstellung  präsentiert das System nur neue, noch nicht erfasste Eintragungen. Es kann jedoch gezielt auch zur erneuten Eingabe bereits erfasster Daten genutzt werden, um auf diese Weise potentiell fehlerhafte Transkriptionen zu identifizieren. Die Transkription erfolgt nach den Regeln des sog. Betacodes, der die Eingabe auch komplexer Schriftsysteme unter Verwendung einer Standardtastatur erlaubt. Der Betacode ist sehr leicht zu erlernen und verlangt von den Transkriptoren keinerlei vertiefte Kenntnisse des von ihnen transkribierten Schriftsystems.

Das Typisierungstool (Link)

Das VerbaAlpina-Tool zur Typisierung von Daten aus analogen Quellen. Das Beispiel zeigt im oberen markierten Feld eine Reihe von transkribierten Einzelbelegen der AIS-Karte 1218_1, "il siero del formaggio; il siero della ricotta", die dem lexikallischen Typ lacciata (f.) (roa.) zugeordnet werden können.

Das Typisierungstool erleichtert den Bearbeitern (in der Regel graduierte Sprachwissenschaftler) die Zuweisung mehrerer auf einer Sprachatlaskarte verzeichneter Einzelbelege, die jeweils Varianten ein und desselben lexikalischen Typs sind, eben diesem zuzuordnen. Das Tool erlaubt überdies die Neuanlage von lexikalischen Typen bzw. die Bearbeitung bereits vorhandener.

Georeferenzierungen

Ein obligatorisches Merkmal aller objektsprachlichen Daten sind Georeferenzierungen, damit virtuelle Karten (s.u.) erstellt werden können; im Fall zahlreicher Dialektwörterbücher können den Belegorten entsprechende Koordinaten zugeordnet werden. Sehr gute Beispiele sind die großen schweizerischen Wörterbücher, der Glossaire des patois de la Suisse romande (GPSR), der Vocabolario dei dialetti della Svizzera italiana (VSI) und der Dicziunari Rumantsch Grischun (DRG), für die die Daten in der Manier eines Atlas in einem genau identifizierten Netz von Orten erhoben wurden, wie folgende Karte zeigt:

Ortsnetze des DRG, GPSR und VSI (interaktives Original)

Das Prinzip wurde zwar grundsätzlich bereits im Idiotikon praktiziert; aber eine mögliche Georeferenzierung wird hier in ganz erheblichem Maße durch praktische Schwierigkeiten  verhindert: manche Ortsabkürzungen sind nicht eindeutig auflösbar, manche Gemeinden sind nicht identifizierbar, die Gemeindezuordnung etlicher Orte hat sich durch politische Reorganisation verändert usw.

Geographische Bezugseinheit sind bei VerbaAlpina die politischen Gemeinden. Die zugrundeliegenden Daten wurden bald nach Projektbeginn gesammelt und werden nicht aktualisiert, sie bilden einen stabilen geographischen Referenzrahmen. Standardmäßig werden aus den Quellen gesammelte Sprachbelege jeweils auf das Referenzraster der politischen Gemeinden bezogen. Die Georeferenzierung erfolgt über die Registrierung von WGS84-Koordinaten. Für jede Gemeinde sind in der Datenbank von VerbaAlpina die Grenzverläufe der Gemeindegrenzen hinterlegt, hinzu kommen Punktkoordinaten, die jeweils auf den geometrischen Mittelpunkt der Gemeindeflächen weisen. Es besteht außerdem die Möglichkeit, Sprachbelege quasi metergenau und zunächst unabhängig von der Gemeindelogik zu verorten.

2. Bezug der sprachlichen Daten zu außersprachlichen Normdaten

Sprachliche Daten und ihre Beschreibungskategorien waren immer schon – wenngleich in unterschiedlicher Explizitheit – auf die außersprachliche Wirklichkeit bezogen. Mittlerweile kann der Bezug im technischen Sinn operationalisiert werden, denn es stehen persistente Normdaten zur Verfügung. Großes, bei weitem (noch) nicht ausgeschöpftes Potential besitzen die Identifikatoren des Wikidata-Projekts. Sie bieten eine sehr differenzierte und verlässliche Referenzebene, die einerseits Grundlage für die komplementäre und vergleichende Erfassung mehrerer Sprachen ist und andererseits geeignete Suchfilter für die Abfrage der jeweiligen einzelsprachlichen Bezeichnungen liefert. Dadurch werden Semasiologie und Onomasiologie scharf getrennt. Vgl. die Konzeptsuche:

Onomasiologische Konzeptsuche in VA

Von Vorteil ist auch, dass die Wikidata grundsätzlich von jedermann gepflegt und erweitert werden kann. So können z. B. fehlende Konzepte in Wikidata nachgetragen werden. VerbaAlpina z. B. ist über die Q-ID Q66817486 eindeutig indentifiziert (https://www.wikidata.org/wiki/Q66817486).

Neben den Normdaten von Wikidata integriert VerbaAlpina auch die Identifikatoren des auf geographische Entitäten spezialisierten Geonames-Projekts. Der Zugriff auf die externen Normdatenseiten ist innerhalb der VerbaAlpina-online-Karte über die Belegfenster möglich, die sich beim Anklicken der Kartensymbole öffnen:

Integration externer Normdaten in einem Belegfenster der Online-Karte

Die Anbindung an externe Normdatensysteme ist nicht zuletzt für die Auffindbarkeit von VerbaAlpina-Daten von außen von Bedeutung. Bislang sind die Wikidata-QIDs nur intern mit den VerbaAlpina-eigenen Identifikatoren verknüpft. Es ist beabsichtigt, die VA-Daten in  nach Wikidata zu exportieren und sie mit einer eigenen "Property" (VA-ID) zu versehen. Auf diese Weise werden die VerbaAlpina-Daten zum Teil des Semantic Web. Konzeptionelles Vorbild sind die, auch an der ITG angesiedelten, Projekte "Kaiserhof", einer Datenbank, die die habsburgischen Höflinge erfasst, und BMLO, das "Bayerische Musikerlexikon Online". Die Identifikatoren dieser beiden Projektdatenbanken können in Wikidata mit Hilfe der Abfragesprache SPARQL abgerufen werden. Ähnliches schwebt uns auch für VerbaAlpina vor.

Konkret angedacht ist auch der Export der von VA gesammelten Sprachdaten in die Lexikographie-Sektion von Wikidata(Beispiel: Lexeme, die eine Farbe bezeichnen).

3. Forschungsdatenmanagment (FDM)

Orientierung an den FAIR-Kriterien

Das Akronym FAIR wurde aus den Anfangsbuchstaben der vier  - letztlich forschungsethischen - Leitkriterien findable, accessible, interoperable und reusable gebildet; ihre Umsetzung wurde bereits mehrfach und auch im Detail beschrieben (vgl. vor allem Lücke, Krefeld/Lücke 2020 und Krefeld 2018 g).

Die Ausrichtung an den FAIR-Kriterien impliziert die Einhaltung der Open Access und Open Source-Richtlinien und den Verzicht auf die Entwicklung und den Einsatz proprietärer Werkzeuge.

Kontakt zu FDM-Institutionen

Nachhaltigkeit hängt zu einem nicht unwesentlichen Teil davon ab, ob Institutionen mit unbefristeter Existenzperspektive die Verantwortung für die Bewahrung der Projektergebnisse übernehmen. VerbaAlpina hat deswegen schon vor längerer Zeit den Kontakt zur UB der LMU gesucht. Grundsätzlich erscheinen die Bibliotheken als die idealen Partner für das Forschungsdatenmanagement, im wesentlichen aus zwei Gründen:

  • Die Bewahrung wissenschaftlicher Erträge ist seit jeher die zentrale Aufgabe der Bibliotheken
  • Staats- und Universitätsbibliotheken besitzen in aller Regel eine unbefristete Existenzperspektive

VerbaAlpina ist überdies Pilotprojekt im von der Bayerischen Staatsregierung finanzierten FDM-Projekt "eHumanities – interdisziplinär", das sich mit den Herausforderungen des Forschungsdatenmanagements vor dem Hintergrund der immer noch fortschreitenden Digitalisierung auseinandersetzt.

In Zusammenarbeit mit der UB der LMU ist es mittlerweile gelungen, zunächst zwei ausgewählte Versionen des VerbaAlpina-Datenbestands (19/1 und 19/2) in das Forschungsdatenrepositorium der UB zu übertragen. Die Daten sind dort außerdem in das Recherche-Portal "Discover" eingeflossen, wo auf sie nun in unterschiedlicher Granulierung zugegriffen werden kann. So ist es etwa möglich, vollständige Versionen zu referenzieren oder herunterzuladen. Zusätzlich können Einzelbelege, morpholexikalische Typen oder ganze Ortschaften samt dem ihm zugeordneten Sprachmaterial adressiert werden. Das System erlaubt die Erzeugung spezifischer DOIs für ausgewählte Datenpakete, eine eindeutige Referenzierung ist überdies durch UB-eigene persistente Identifikatoren möglich.

Portal "Discover" der UB der LMU. Das System erlaubt u. a. die Erzeugung von DOIs, die auf einzelne morpholexikalische Typen von VerbaAlpina verweisen.

4. Adressierung und interaktive Einbindung eines breiten Publikums (Crowdsourcing)

Die allgemeine Zugänglichkeit von Inhalten, die im Internet  publiziert werden, führt dazu, dass grundsätzliche ein sehr breites Publikum angesprochen wird, das sich in durchaus unterschiedlichen Wissenswelten bewegt. Dazu gehören – wenigstens potentiell – die sprachwissenschaftliche Fachwelt, interessierte Laien und die Sprechergemeinschaften inklusive mancher Informanten. Selbstverständlich sind nicht aller Informationen für alle Nutzer gleichermaßen interessant, so dass es nicht nötig erscheint, alles in maximal verständlicher Alltagssprache auszudrücken. Das wäre auch nicht im Sinne er erforderlichen begrifflichen Schärfe, die auf Terminologie nicht verzichten kann. Allerdings wird die Verständlichkeit der Oberfläche durch den Einsatz zahlreicher Informationsfenster erleichtert, die sich öffnen, wenn der Mauspfeil darauf bewegt wird (so genannte Tooltips). Hier ein Beispiel:

Beispiel für einen Tooltip (interaktives Original)

In mehrfacher Weise werden Nutzer aktiv eingebunden:
  • Jeder kann unabhängig von seinem Experten- oder Laientum sprachliche Formen beisteuern; darüber hinaus ist es auch möglich, fehlende Konzepte zu ergänzen.(vgl. https://www.verba-alpina.gwi.uni-muenchen.de/en/?page_id=1741.
  • Nutzer, die Belege/Konzepte beisteuern,  können sich registrieren und so für das Projekt erreichbar bleiben; das ist nützlich für eventuelle Rückfragen. #wieviel % machen das?#
  • Jeder Nutzer kann interaktiv durch Kombination beliebiger Inhalte synoptische Karten generieren, fixieren und zur Veröffentlichung vorschlagen. Diese Vorschläge werden jedoch nicht automatisch allgemein zu Verfügung gestellt, sondern vorher durch die Projektverantwortlichen geprüft.
  • Ein direkte Kontaktaufnahme ist über die Social Media-Auftritte des Projekts ebenso möglich, wie über E-Mail-Adressen (vgl. Home).
  • Wissenschaftliche Partnerprojekte können beliebig viele relevante Daten liefern und in einer eigenen Datenbank, die Teil der Projektarchitektur ist, hosten.

5. Offene und dynamische Datenbestände

Die Möglichkeit kontinuierlicher Anreicherung der verfügbaren Daten setzt voraus, dass grundsätzlich mit offenen und dynamischen Datenbeständen gearbeitet wird. Es erübrigt sich so die ideale, d.h. illusionäre Vorstellung empirischer Vollständigkeit. Allerdings ist es im Sinne der Transparenz und Nachprüfbarkeit unbedingt notwendig, eine empirische Verlässlichkeit zu garantieren, damit die Projektergebnisse auch zitierbar sind. Diese fundamentale Bedingung wird durch eine regelmäßige Versionierung der Daten erfüllt. Rein technisch wird die Versionierung durch die Anfertigung einer Kopie der Datenbank erreicht. Die Kopie erhält einen Namen, der auf den Zeitpunkt der Erzeugung verweist (191: Jahresmitte 2019; 192: Jahresende 2019). Die Kopie der Datenbank ist "eingefroren", Änderungen an den darin enthaltenen Daten ist nicht mehr möglich. Auf dem Projektportal ist über ein Drop-Down-Menü der Wechsel zwischen den verschiedenen Versionen möglich:

Verfügbare VA-Versionen

Die Versionsnummer ist auch Teil der meisten URLs, die auf VerbaAlpina-Ressourcen verweisen. Als Beispiel sei hier die URL genannt, die auf den Morpholexikalischen Typ L2599/tegia (roa f.) im LexikonAlpinum in der VA-Version 211 verweist:

db=211#L2599" target="_BLANK">https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=12180&db=211#L2599

Eine Übersicht über sämtliche bislang vorhandenen Versionen findet sich auf der Startseite von VerbaAlpina unter dem Button "Timeline". Ein Klick auf eines der Versionsbilder öffnet eine Statistik, die den Datenzuwachs in der jeweiligen Version anzeigt:

VerbaAlpina "Timeline" mit statistischen Daten zur VerbaAlpina-Version 2021

Künftig wird die Timeline-Übersicht auch noch weitere Informationen zu Veränderungen gegenüber den Vorgängerversionen enthalten. Dabei wird es vor allem um nicht quantifizierbare Errungenschaften wie etwa die Entwicklung neuer Tools oder Veränderungen in Design oder Usability gehen.

6. Virtuelle Kartographie auf georeferenzierter Grundlage

Im Sinne einer konsequenten Nutzung von Webtechnologie ist der Verzicht auf den Einsatz einer graphischen Grundkarten. Rein virtuelle Kartierung bietet mehrere Vorteile; sie erlaubt es  dem Nutzer optional ganz unterschiedliche Oberflächen anzubieten (mit/ohne Relief, mit/ohne Beschriftung, Karte/Satellitenbild usw.):

Optionale Kartenoberflächen in VA (interaktives Original)

Weiterhin kann optional zwischen mehreren geographischen Referenzeinheiten gewechselt werden. Die Grundeinstellung (by default)  kartiert in Bezug auf die politische Gemeinde; vor allem bei quantitativer Visualisierung ist es jedoch gelegentlich sinnvoll, größere Einheiten zu Grunde zu legen, die folgenden Karten (so genannte heat maps) zeigen die Menge der Crowder, d.h. der aktiven Nutzer, die uns Belege geliefert haben (1688 Personen, am 13.10.2021, 9:40) mit Bezug auf die Gemeinden und die von der Europäischen Kommission definierten NUTS 3-Regionen (NUTS: Nomenclature des unités territoriales statistiques):

Optionale Visualisierung mit Referenz auf die Gemeindeflächen (links, interaktives Original) und die NUTS 3-Regionen (rechts, interaktives Original)

Als weitere Referenzgrößen stehen u.a. die Nationalstaaten und die Sprachgebiete (Sprachfamilien) zur Verfügung. Das Beispiel zeigt im Übrigen, dass jederzeit aktuelle Datenbestände visualisiert werden können.

7. Möglicher Einbezug nicht sprachlicher Kontextdaten

Für die Interpretation geolinguistischer Konstellationen sind demographische und historische  Informationen über den Belegort unerlässlich; VA hat daher alle 5771 Gemeindenamen des Alpenraums mit den jeweiligen Einträgen im Dienst geonames.org verknüpft. Im Fall der Gemeinde, auf deren Territorium wir uns befinden, Garmisch-Partenkirchen, führt uns der Dienst zu vielfältigen topographischen, administrativen und enzyklopädischen (Wikipedia-Logo) Informationen:

Über geonames.org importierte Informationen (Beispiel Garmisch-Partenkirchen – Quelle)

Da das Projekt VA auf die sprachliche Stratigraphie des Alpenraums zielt – im Fall von Garmisch-Partenkirchen die etwaige Existenz eines lateinisch-romanischen Substrats – wurden weiterhin relevante historische Daten einbezogen, so die eventuelle Existenz römischer Inschriften oder die antike Erwähnung des Ortsnamens im Itinerarium Antonii bzw. auf der darauf basierenden Tabula Peutingeriana:

Erwähnung von Partenkirchen (Tarteno ⇒  <P>arteno) auf der Tabula Peutingeriana (interaktives Original)

Die nicht-sprachlichen Kontextdaten werden zusammen mit den Sprachdaten in der zentralen VerbaAlpina-Datenbank in der Tabelle "Orte" gehalten.

Ausschnitt aus der Tabelle "Orte" in der VA-Datenbank mit Einträgen zu "Partenkirchen"

Die Tabelle "Orte" enthält aktuell etwa 165000 Einträge und hat ein Volumen von mehr als 250 MB. Die Eintragungen in diese Tabelle sind insgesamt 47 Kategorien zugeordnet. Neben den Daten von der Tabula Peutingeriana sind dies beispielsweise die folgenden:

Kloester (1317); langobardische_graeberfelder (120); Walsergemeinden (77); Raetische Inschriften (36); ...

8. Überwindung der Gattungsgrenzen

Die traditionellen Gattungen, in denen die Ergebnisse geolinguistischer Forschung veröffentlicht wurden (Ortsmonographie, Atlas, Wörterbuch, Korpus), verfolgen jeweils spezifische Zwecke und sind daher komplementär zu sehen. Es gibt im Rahmen der digitalen Medien jedoch keinen Grund mehr, sie kategorisch zu trennen. Gerade wegen ihrer Komplementarität liegt es vielmehr nahe, sie organisch mit einander zu verflechten, wie es in VerbaAlpina unternommen wurde. Der Webauftritt des Projekts liefert unter dem Reiter  Methodologie theoretische Erörterungen zentraler linguistischer und informationstechnischer Begriffe; diese konzeptionelle Komponente ist eng mit den beiden wichtigsten Funktionalitäten verschränkt, der interaktiven Karte und der Lexicon Alpinum. Diese beiden Komponenten wiederum sind gewissermaßen symbiotisch angelegt worden, denn jeder Lexikoneintrag kann durch einen Klick auf einer Karte visualisiert werden und von der Karte gelangt man durch einen Klick zu den korrespondierenden Lexicon-Einträgen:

Wechselseitige Verschränkung lexikographischer und kartographischer Informationen

Schließlich ist das Datenkorpus auch aus diskursivem Text oder aus der interaktiven Karte heraus direkt abfragbar. Es besteht für Nutzer die Möglichkeit, auf der interaktiven Karte individuelle Datenbankabfragen über die Schaltfläche 'SQL Query' abzuschicken und die Ergebnisse so in kartographischer Darstellung einzusehen.

Die Nutzung der SQL-Funktion verlangt Kenntnisse in der Abfragesprache SQL. Die nötigen Informationen über Struktur und Inhalt der an dieser Stelle abfragbaren Tabelle sind über einen Klick auf das kleine Fragezeichen neben dem Schlüsselwort "WHERE" abrufbar:

Dialogfelder zur Formulierung individueller Abfragen. Ein Tooltip präsentiert die in der Tabelle vorhandenen Felder samt deren Datentypen.

Ein in blau gesetzter Link am unteren Rand des Tooltipps führt auf eine eigene Seite mit detaillierten Informationen zu den Datenbankfeldern und deren Inhalten.

Beispiel: Belege mit dem Basistyp "butyru(m)":

Kartierung von Einzelbelegen, die dem lexikalischen Typen "Butter" zugeordnet sind und mit einem P beginnen. Ein Rechtsklick auf den Legendeneintrag ermöglicht die Modifizierung der SQL-Abfrage (Dialogfeld rechts).

Ein Beispiel für Aggregation und Gattungsverschränkung

Abschließend soll die Aggregation unterschiedlicher Quellen(typen) und die Gattungsverschränkung etwas detaillierter exemplifiziert werden. Ausgangspunkt der  Darstellung ist der Artikel chaschöl des bündnerromanischen Referenzwörterbuchs DRG (Link). Die dort genannten Formen erscheinen auf der Karte chaschöl im Verbund mit denjenigen aus anderen Quellen, wie stellvertretend die Markierung der Orte des VSI zeigt:

Verbreitung des Typs chaschöl (< lat. caseolus) im Spiegel aggregierter Quellen, interaktives Original

Die regionale Besonderheit des Typs (Tessin, Graubünden, Dolomiten) tritt vor allem dann hervor, wenn er im Kontext aller anderen Bezeichnungen von KÄSE kartiert wird (vgl. die [[Karte KÄSE|https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=133&db=xxx&tk=3801&layer=4]0].

 


Bibliographie

  • ADDU = Thun, Harald / Elizaincín, Adolfo (2000-): Atlas lingüístico diatópico y diastrático del Uruguay, Kiel, Westensee
  • AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
  • ASD = Krefeld, Thomas / Lücke, Stephan / Mages, Emma (2016): Audioatlas Siebenbürgisch-Sächsischer Dialekte , München, Ludwig-Maximilians-Universität. Link
  • ASLEF = Pellegrini, Giovan Battista (1974-1986): Atlante storico-linguistico-etnografico friulano, Padova, vol. 1-6
  • AsiCa = Krefeld, Thomas / Lücke, Stephan (2006-2017): Atlante sintattico della Calabria, München. Link
  • Asica 2.0 = Krefeld, Thomas / Lücke, Stephan (2019): Atlante sintattico della Calabria. Rielaborato tecnicamenta da Veronika Gacia e Tobias Englmeier, München. Link
  • DRG = De Planta, Robert/ Melcher, Florian/ Pult, Chasper/ Giger, Felix (1938ff.): Dicziunari Rumantsch grischun, Chur, Inst. dal Dicziunari Rumantsch Grischun. Link
  • DWDS = Berlin-Brandenburgische Akademie der Wissenschaften (Hrsg.) (2004-): Das Digitale Wörterbuch der deutschen Sprache, Berlin. Link
  • GPSR = Gauchat, Louis (Hrsg.) (1924ff.): Glossaire des patois de la Suisse romande, Genève [u.a.], Droz [u.a.]
  • Idiotikon = (1881 ff.): Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch, Basel. Link
  • Krefeld 2018 g = Krefeld, Thomas (2018): I principi FAIR nel progetto VerbaAlpina, ossia il trasferimento della geolinguistica alle Digital Humanities. Link
  • Krefeld/Lücke 2020 = Krefeld, Thomas / Lücke, Stephan (2020): 54 Monate VerbaAlpina – auf dem Weg zur FAIRness, in: Ladinia, vol. XLIII, 139-156. Link
  • Metropolitalia = Krefeld, Thomas / Lücke, Stephan / Bry, François (2010-2013): Metropolitalia. Social Language Tagging, München. Link
  • VALTS = Gabriel, Eugen (1985-2004): Vorarlberger Sprachatlas mit Einschluss des Fürstentums Liechtenstein, Westtirols und des Allgäus , vol. 1-5, Bregenz, vol. 1-5, Vorarlberger Landesbibliothek
  • VSI = Sganzini, Silvio (1952ff): Vocabolario dei dialetti della Svizzera italiana, Lugano, Tipografia la Commerciale
  • VerbaAlpina = Krefeld, Thomas / Lücke, Stephan (2014-): VerbaAlpina. Der alpine Kulturraum im Spiegel seiner Mehrsprachigkeit, München. Link
  • WBOe = Bauer, Werner/ Kranzmayer, Eberhard. Institut für österreichische Dialekt- und Namenlexika (Hrsg.) (1970–): Wörterbuch der bairischen Mundarten in Österreich, Wien, Verl. der Österr. Akad. der Wiss.

(Unsere) Prinzipien der virtuellen Geolinguistik (Präsentation) (Zitieren)

Stephan Lücke


(3000 Wörter)
Diese Präsentation wurde für den Workshop Neue Wege der romanischen Geolinguistik Vers. 2.0 (2021) verfasst (Schneefernerhaus, 4.-5.11.2021). Für die Einladung mitzumachen danken wir Joachim Steffen (Augsburg). Eine ausformulierte Version des Beitrags ist unter folgendem Link verfügbar: https://www.verba-alpina.gwi.uni-muenchen.de/?p=17197


Übersicht

I. Vorgeschichte: Drei Generationen von Sprachatlanten (🎙 TK)
II. Unsere 8 Prinzipien für die dritte Generation:

1. Strukturierte digitale Daten als Arbeitsgrundlage (🎙 SL)
  2. Bezug der sprachlichen Daten zu außersprachlichen Normdaten (🎙 TK)
3. Forschungsdatenmanagement (FDM) (🎙 SL)
  4. Adressierung und interaktive Einbindung eines breiten Publikums (🎙 TK)
5. Offene und dynamische Datenbestände (🎙 SL)
  6. Virtuelle Kartographie auf georeferenzierter Grundlage (🎙 TK)
7. Möglicher Einbezug nicht sprachlicher Kontextdaten (🎙 SL)
  8. Überwindung der Gattungsgrenzen (🎙 TK)

Appendix

  • Ein Beispiel für Aggregation und Gattungsverschränkung (🎙 TK)
  • Eckpunkte der technischen Umsetzung (🎙 SL)
  • Die IT-Gruppe Geisteswissenschaften (🎙 SL)

Vorgeschichte: Drei Generationen von Sprachatlanten

Vorgestellte Prinzipien Ergebnis von 16 Jahren gemeinsamer Arbeit an vier gemeinsamen geolinguistischen Projekten:

  • AsiCa – Atlante sintattico della Calabria
  • ASD – Audioatlas Siebenbürgisch-Sächsischer Dialekte
  • Metropolitalia
  • VerbaAlpina

Unterschiede ...

  • in der Modellierung räumlicher Variation;
  • im Verständnis der Repräsentativität sprachlicher Daten vor dem Hintergrund der selektierten Informanten, Orte und Elizitationsverfahren;
  • in der medialen Konzeption und Realisierung.

Drei Generationen von Sprachatlanten:

Erste Generation:

  • eindimensional 
  • Dem Axiom des repräsentativen Einzelinformanten verpflichtet
  • das prototypische Beispiel: der AIS

Zweite Generation:

  • pluridimensional
  • untersucht die räumliche Variation in mehreren Dimensionen; die Abhängigkeit der sprachlichen Daten vom Sprecher und von der Art der Elizitation rückt ins methodologische Zentrum der Arbeit.
  • prototypisch: ADDU.

Dritte Generation:

  • (idealerweise) Konzeption nach Art von zweiter Generation + konsequenter Einsatz von Webtechnologie
  • sprachwissenschaftlicher und medialer Aspekt untrennbar miteinander verflochten: die Entstehung dieses Paradigmas nicht nur wissenschaftsintern zu sehen, sondern unter Voraussetzung des informationstechnischen Fortschritts (vgl. Wissenschaftskommunikation im Web)
  • Beispiel: VerbaAlpina

  • auch in der technischen Phase von Generation 3 teilweise nicht konsequente Nutzung der Möglichkeiten. Beispiel: Online-Atlas VIVALDI folgt konzeptionell der Generation 1
  • Generation 3 verlangt vollständige und konsequente Digitalisierung
  • unsere eigenen Projekte am Übergang von Generation 2 zu 3:
2. Generation   3. Generation
AsiCa  Asica 2.0
ASD
  Metropolitalia
  VerbaAlpina
geolinguistische Projekte der Autoren
  • VerbaAlpina illustriert prototypisch und exemplarisch Anforderungen und Umsetzung eines geolinguistischen Projekts der Generation 3.

II. Unsere 8 Prinzipien für die dritte Generation

1. Strukturierte digitale Daten als Arbeitsgrundlage

  • Für die elektronische Datenanalyse und -visualisierung müssen die Daten digital und v. a. strukturiert sein
  • Wir unterscheiden mehrere Digitalisierungsgrade:
Grad der
Digitalisierung
Etikett., Erweit., Verknüpf. Daten-
export
D3 Tabelle db
csv
strukturierter elektronischer Text XML
SQL
CSV
txt
...
HTML
PDF
PS
Papier
D2 ↑ Textdatei txt
doc
linearisierter elektronischer Text ← praat
D1 ↑ Scan jpg binärer Code wav, mp3
D0 ↑ Papier Schrift/Bild Audio
  • Projekte der Generation 3 → Digitalisierungsgrad 3

  • Datenerfassung: Daten ggf. digitalisieren und strukturieren bzw. re-strukturieren
  • Strukturierung orientiert an projektspezifischen Kategorien (= Metadaten)
  • Text: Digitalisierung durch Scannen und OCR
  • Audio [bei VerbaAlpina bislang irrelevant]: ASR (automatic speech recognition; STT: speech to text) oder abtippen (Praat) ⇒ elektronischer Text (ASR bislang nur bei Standardsprache brauchbar)
  • Beispiel für Datendigitalisierung und -strukturierung:
Daten analog Daten digital Daten digital und strukturiert
tˈeːʥɑ
Typ Quelle Ort Bedeutung
tegia AIS Ems SENNHÜTTE

Beleg: AIS 1192 (LA CASCINA DI MONTAGNA), Ort 5 (Ems) (VA-Beleg S293; Discover@UB)

  • Automatisierung variiert je nach Quelle/Vorlage und ist bestenfalls partiell möglich
  • VerbaAlpina-Quellen liegen in unterschiedlichen Digitalisierungsgraden und Strukturen vor. Beispiele:
strukturiert ASLEF-Tafeln VerbaAlpina
nicht/teil- strukturiert VALTS Idiotikon, WBOe
analog digital
  • Gegebene Strukturierungen verlangen häufig eine Umstrukturierung: Struktur A ⇒ Struktur B.
  • Je nach Strukturierungs- und Digitalisierungsgrad gestaltet sich die Datenerfassung mehr oder weniger aufwendig.
  • Optimal für Datenaustausch, Vernetzung und Nachnutzung: sog. APIs.
  • APIs in lexikographischen online-Ressourcen bislang selten
  • Beispiel für API: "Digitales Wörterbuch der Deutschen Sprache" (DWDS; API: https://www.dwds.de/d/api) (für VerbaAlpina von nachrangiger Bedeutung).
  • VerbaAlpina-API: https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=8844&db=211.

Einige Beispiele für VA-Quellen

  • ASLEF-Tafeln

Tafel 45 des ASLEF: unter jedem Konzept eine Liste der ortstypischen Bezeichnungen; vor den Einzelbelegen die Kennzahlen der jeweiligen Ortschaften.

  • OCR möglich
  • transparente Strukturierung
  • ⇒ teilautomatische Erfassung möglich, aber nicht realisiert wegen hohem Aufwand – manuell schnelle

  • Vorarlberger Sprachatlas mit Einschluss des Fürstentums Liechtenstein (VALTS)

Karte IV 73 des VALTS: Mischung

  • Georeferenzierung durch kartographische Abbildung der Daten
  • Unterschiedliche Informationskodierung (Symbole, Farbe)
  • Vermischung von Belegen unterschiedlicher Kategorien (Typen [z. B. Tieie], Einzelbelege)
  • Dokumentation unterschiedlicher Konzepte (SENNHÜTTE, SENNEREIRAUM [= Teil der Hütte], KÄSEKELLER, PRIMITIVE SENNHÜTTE AUF MAIENSÄSSEN)
  • ⇒ Automatisierte Erfassung unmöglich

Beispiel für ein Wörterbuch: Schweizerdeutsches Idiotikon

  • Verteilung von VerbaAlpina-relevanten Entitäten im Fließtext
  • Automatisierung auch hier de facto nicht möglich
  • ⇒ manuelle Erfassung

Ein positives Beispiel ist das Bibl:WBOe.

Digitalisierung der analogen Handzettel durch das Projekt WBOE. Nach einer Zwischenstation mit TUSTEP liegt das Material jetzt im XML-Format vor.


VerbaAlpina-Tools zur Digitalisierung und strukturierten Datenerfassung

  • Transkriptionstool (Link)

Das Transkriptionstool von VerbaAlpina

  • gesteuerte Datenerfassung: Tool gibt vor, welche Daten zu erfassen sind
  • Metadaten werden z. T. (Quelle, Erhebungspunkt/Informantennummer) automatisch angelegt
  • ⇒ Förderung von systematischem Vorgehen
  • ⇒ Reduktion von Fehlern
  • Transkription im sog. Betacode (ohne Sonderzeichen ⇒ Standardtastatur nutzbar)
  • ⇒ keine Spezialkenntnisse für Transkription nötig
  • Durchführung durch Hilfskräfte

Typisierungstool (Link)

Das VerbaAlpina-Tool zur Typisierung von Daten aus analogen Quellen. Das Beispiel zeigt im oberen markierten Feld eine Reihe von transkribierten Einzelbelegen der AIS-Karte 1218_1, "IL SIERO DEL FORMAGGIO; IL SIERO DELLA RICOTTA", die dem lexikallischen Typ lacciata (f.) (roa.) zugeordnet werden können.

  • Zuweisung von aus den Quellen erfassten Sprachdaten zu lexikalischen Typen
  • systematisches Vorgehen
  • Verwaltung (Neuanlage, Modifizierung) von lexikalischen Typen
  • Typisierung durch graduierte Sprachwissenschaftler

Georeferenzierungen

  • essentiell für VerbaAlpina – Sprachdaten OHNE Georeferenz nutzlos
  • Referenzmatrix von VerbaAlpina: politische Gemeinden im Alpenraum ...
  • ... mit Stand von etwa 2015
  • Matrix wird NICHT aktualisiert (Auflösung, Neuschaffung von Gemeinden bleiben unberücksichtigt)
  • Georeferenzen sind im Koordinatenbezugssystem WGS84 gespeichert
  • Für jede Gemeinde: Polygondaten der Gemeindegrenzen UND Punktkoordinaten des geometrischen Mittelpunkts der Gemeindeflächen
  • Grundlage für Visualisierung auf interaktiver online-Karte
  • Individuelle, gemeindunabhängige Punktreferenzierungen sind möglich (fast metergenau) → Anreicherung durch Toponyme möglich
  • Quellen geben Georeferenzen in unterschiedlicher Weise und Genauigkeit an.
  • ⇒ Individuelle Abbildung auf VA-Referenzmatrix nötig
  • Beispiele für Angabe von Georeferenzen in einigen VA-Quellen:

Ortsnetze des DRG, GPSR und VSI (interaktives Original)

  • Problematisch in dieser Hinsicht:  Idiotikon: manche Ortsabkürzungen nicht eindeutig auflösbar, manche Gemeinden nicht identifizierbar, die Gemeindezuordnung etlicher Orte hat sich durch politische Reorganisation verändert usw.

  • Ein Blick in die VA-Datenbank (Partner-Schnittstelle vap_de; Link [nur für Partner])

Die VerbaAlpina-Datenbankschnittstelle für Partner


2. Bezug der sprachlichen Daten zu außersprachlichen Normdaten

  • sprachliche Daten sind stets auf die außersprachliche Wirklichkeit bezogen
  • Butter ⇒ BUTTER
  • Dadurch werden Semasiologie und Onomasiologie scharf getrennt. – Vgl. die Konzeptsuche:

Onomasiologische Konzeptsuche in VA

Integration externer Normdaten in einem Belegfenster der Online-Karte

  • Integration der VerbaAlpina-Daten in das Semantic Web → Export als RDF-Triple (in Vorbereitung)
  • Neuerdings: Einbindung auch *sprachlicher* Normdaten: L-IDs des Wikidata-Projekts Beispiel (Tooltip öffnet sich bei Mouseover über Morphtypen; online-Version):

Einbindung von Wikidata-L-IDs in das Infowindow der VerbaAlpina-Karte

  • in Planung: Export der von VA gesammelten Sprachdaten in die Lexikographie-Sektion von Wikidata (Beispiel für eine SPARQL-Abfrage: Lexeme, die eine Farbe bezeichnen)

3. Forschungsdatenmanagement (FDM)

  • Volldigitalisierung nach Generation 3 verlangt Konzept für langfristige Bewahrung
  • "Forschungsdatenmanagement" als Label
  • Orientierung an den FAIR-Kriterien, letztlich forschungsethische Leitkriterien:
    • findable
    • accessible
    • interoperable
    • reusable
  • vgl. Lücke, Krefeld/Lücke 2020 und Krefeld 2018 g
  • Konsequenz: Einhaltung der Open Access und Open Source-Richtlinien und Verzicht auf die Entwicklung und den Einsatz proprietärer Werkzeuge ⇒ CC BY-SA Lizenzen
  • Kontakt zu FDM-Institutionen:
    • UB der LMU (Bibliotheken als idealer Partner: unbefristet existent, kompetent, verlässlich)
    • FDM-Projekt GeRDI (Motto: "Glanz und Elend der Projekte")
    • FDM-Projekt eHumanities – interdisziplinär
  • Workflow für Datenexport zur UB fertig
  • VerbaAlpina-Daten abrufbar über Discover (bislang nur Versionen 191 und 192):

Portal "Discover" der UB der LMU. Das System erlaubt u. a. die Erzeugung von DOIs, die auf einzelne morpholexikalische Typen von VerbaAlpina verweisen.

  • VerbaAlpina gliedert sich in mehrere Teile: Kerndatenbestand (= Sprachdaten), diskursive und analytische Texte, Mediendateien, Software (Code)
  • Problematisch vor allem: Webportal (Betrieb nach Projektende prekär)

Nachhaltigkeitskonzept von VerbaAlpina

4. Adressierung und interaktive Einbindung eines breiten Publikums (Crowdsourcing)

  • gegenüber Buchpublikation verändertes Publikum (Buch: Fachwelt; Web: Fachwelt, Laien, u. a. Sprechergemeinschaften)
  • Erläuterungen für Laien z. T. durch Informationsfenster, die sich öffnen, wenn der Mauspfeil darauf bewegt wird (so genannte Tooltips). Beispiel:

    Beispiel für einen Tooltip (interaktives Original)

  • Andere Voraussetzung: Webpublikation nie abgeschlossen ⇒ Interaktion und Aktualisierung

mehrfache aktive Einbindung der Nutzer:

  • Jeder (Experten und Laien) kann beitragen (vgl. https://www.verba-alpina.gwi.uni-muenchen.de/en/?page_id=1741):
    • sprachliche Formen
    • fehlende Konzepte
  • Nutzer, die Belege/Konzepte beisteuern,  können sich registrieren und so für das Projekt erreichbar bleiben; das ist nützlich für eventuelle Rückfragen. #wieviel % machen das?#
  • Jeder Nutzer kann interaktiv durch Kombination beliebiger Inhalte synoptische Karten generieren, fixieren und zur Veröffentlichung vorschlagen. Diese Vorschläge werden jedoch nicht automatisch allgemein zu Verfügung gestellt, sondern vorher durch die Projektverantwortlichen geprüft.
  • direkte Kontaktaufnahme: über die Social Media-Auftritte des Projekts und über E-Mail-Adressen (vgl. Home).
  • Wissenschaftliche Partnerprojekte können beliebig viele relevante Daten liefern und in einer eigenen Datenbank, die Teil der Projektarchitektur ist, hosten.

5. Offene und dynamische Datenbestände

  • VA-Daten von Anfang an öffentlich zugänglich
  • Projektfortschritt allgemein sichtbar (Livedaten)
  • Offene Lizenz: CC BY-SA
  • Nachnutzung: Atlas pan-picard informatisé (Link)

VA-basierte online-Karte des "Atlas pan-picard informatisé"

  • Veränderung des Datenbestands problematisch für empirische Verlässlichkeit
  • Lösung: Versionierung zweimal jährlich (Jahresmitte und Jahresende)
  • Unterscheidung zwischen Arbeitsdatenbank (Suffix "xxx") und "eingefrorenen" Versionen (Im Suffix Angabe von Jahr und Version innerhalb des Jahres. ⇒ 191, 192)
  • Technische Umsetzung: Erzeugung einer Kopie der Arbeitsversion der Datenbank mit entsprechendem Suffix; Inhalte der versionierten Fassungen bleiben unverändert.
  • Wechsel zwischen den verschiedenen Versionen auf dem Webportal von VerbaAlpina:

Verfügbare VA-Versionen

  • Versionsnummer: Teil der meisten URLs, die auf VerbaAlpina-Ressourcen verweisen
    Beispiel: die URL für den Morpholexikalischen Typ L2599/tegia (roa f.) im LexikonAlpinum in der VA-Version 211:

db=211#L2599" target="_BLANK">https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=12180&db=211#L2599

  • Übersicht über sämtliche bislang vorhandenen Versionen auf der Startseite von VerbaAlpina unter dem Button "Timeline". Ein Klick auf eines der Versionsbilder öffnet eine Statistik, die den Datenzuwachs in der jeweiligen Version anzeigt:

VerbaAlpina "Timeline" mit statistischen Daten zur VerbaAlpina-Version 2021

  • Timeline-Übersicht: künftig noch weitere Informationen zu Veränderungen gegenüber den Vorgängerversionen; vor allem zu nicht quantifizierbaren Errungenschaften wie etwa die Entwicklung neuer Tools oder Veränderungen in Design oder Usability

6. Virtuelle Kartographie auf georeferenzierter Grundlage

  • Konsequente Nutzung von Webtechnologie ⇒ Verzicht auf graphische Grundkarte
  • Stattdessen: Auswahl verschiedener georeferenzierter Basiskarten von Tile-Servern in einem WebGIS
  • ⇒ Karten mit/ohne Relief, mit/ohne Beschriftung, Karte/Satellitenbild usw.:

Optionale Kartenoberflächen in VA (interaktives Original)

  • verschiedene geographische Referenzeinheiten:
    • politische Gemeinde (Primärreferenz)
    •  NUTS 3-Regionen (NUTS: Nomenclature des unités territoriales statistiques):
    • Nationalstaaten
    • Sprachgebiete (Sprachfamilien)
  • quantifizierende Darstellungen durch sog. heat maps. Beispiel: Menge der Crowder, d.h. der aktiven Nutzer, die uns Belege geliefert haben (1688 Personen, am 13.10.2021, 9:40) mit Bezug auf die Gemeinden und die von der Europäischen Kommission definierten NUTS 3-Regionen

Optionale Visualisierung mit Referenz auf die Gemeindeflächen (links, interaktives Original) und die NUTS 3-Regionen (rechts, interaktives Original)

  • Das Beispiel zeigt im Übrigen, dass jederzeit aktuelle Datenbestände visualisiert werden können.

7. Möglicher Einbezug nicht sprachlicher Kontextdaten

  •  demographische und historische  Informationen über den Belegort:  unerlässlich für die Interpretation geolinguistischer Konstellationen
  • daher: Verknüpfung aller 5771 Gemeindenamen des Alpenraums mit den jeweiligen Einträgen im Dienst geonames.org
    • Beispiel der Gemeinde, auf deren Territorium wir uns befinden, Garmisch-Partenkirchen → vielfältige topographische, administrative und enzyklopädische (Wikipedia-Logo) Informationen:

Über geonames.org importierte Informationen (Beispiel Garmisch-Partenkirchen – Quelle)

  • relevant: sprachliche Stratigraphie des Alpenraums
  • ⇒ Einbindung historischer Daten
  • Frage: Existenz eines lateinisch-romanischen Substrats?
  • Beispiel Garmisch-Partenkirchen:
    • Existenz lateinischer Inschriften?
    • antike Erwähnung des Ortsnamens im Itinerarium Antonini bzw. auf der darauf basierenden Tabula Peutingeriana:

Erwähnung von Partenkirchen (Tarteno ⇒  <P>arteno) auf der Tabula Peutingeriana (interaktives Original)

  • Nicht-sprachliche Kontextdaten: zusammen mit den Sprachdaten in der zentralen VerbaAlpina-Datenbank in der Tabelle "Orte":

Ausschnitt aus der Tabelle "Orte" in der VA-Datenbank mit Einträgen zu "Partenkirchen"

  • aktuell etwa 165000 Einträge
  • mehr als 250 MB.
  • 47 Kategorien, z. B.:
    • Tabula Peutingeriana
    • Kloester (1317);
    • langobardische_graeberfelder (120);
    • Walsergemeinden (77);
    • Raetische Inschriften (36);
    • ...

8. Überwindung der Gattungsgrenzen

  • die Ergebnisse geolinguistischer Forschung traditionelle in unterschiedlichen  Gattungen veröffentlicht (Ortsmonographie, Atlas, Wörterbuch, Korpus)
    • jeweils spezifische Zwecke
    • komplementär
  • im Rahmen der digitalen Medien: kategorische Trennung sinnlos.
  • Komplementarität der Gattungen → Verflechtung im Webauftritt von VerbaAlpina
    • unter dem Reiter  Methodologie: theoretische Erörterungen zentraler linguistischer und informationstechnischer Begriffe
    • Verschränkung mit mit den beiden wichtigsten Funktionalitäten, der interaktiven Karte und dem Lexicon Alpinum
  • symbiotische Anlage dieser beiden Komponenten
    • Lexikoneintrag → Visualisierung auf einer Karte (durch einen Klick)
    • Karte → korrespondierender Lexicon-Eintrag (durch Klick)

    Wechselseitige Verschränkung lexikographischer und kartographischer Informationen
  • im diskursivem Text / aus der interaktiven Karte heraus:  direkte Abfrage des Datenkorpus möglich
  • auch für Nutzer möglich, auf der interaktiven Karte individuelle Datenbankabfragen über die Schaltfläche 'SQL Query' abzuschicken und die Ergebnisse so in kartographischer Darstellung einzusehen
    • die Nutzung der SQL-Funktion → Kenntnisse in der Abfragesprache SQL.
    • Informationen über Struktur und Inhalt der abfragbaren Tabelle: Fragezeichen neben dem Schlüsselwort "WHERE"

Dialogfelder zur Formulierung individueller Abfragen. Ein Tooltip präsentiert die in der Tabelle vorhandenen Felder samt deren Datentypen.

  • Detaillierte Informationen zu Datenbankfeldern und deren Inhalten: blauer Link am unteren Rand des Tooltipps
  • Beispiel: Slawische Belege mit dem Basistyp "butyru(m)":

Kartierung von Einzelbelegen, die dem lexikalischen Typen "Butter" zugeordnet sind und mit einem P beginnen. Ein Rechtsklick auf den Legendeneintrag ermöglicht die Modifizierung der SQL-Abfrage (Dialogfeld rechts).

Appendix

Ein Beispiel für Aggregation und Gattungsverschränkung

  • detaillierteres Beispiel für Aggregation unterschiedlicher Quellen(typen) und Gattungsverschränkung
    • Artikel chaschöl des bündnerromanischen Referenzwörterbuchs DRG (Link)
    • die dort genannten Formen → auf der Karte chaschöl
    • im Verbund mit denjenigen aus anderen Quellen, vgl. stellvertretend die Markierung der Orte des VSI

Verbreitung des Typs chaschöl (< lat. caseolus) im Spiegel aggregierter Quellen, interaktives Original

  • regionale Besonderheit des lexikalischen Typs (Tessin, Graubünden, Dolomiten) → im kartographischen Kontext aller anderen Bezeichnungen von KÄSE (vgl. die Karte KÄSE)

Eckpunkte der technischen Umsetzung

  • Reine Webtechnologie
  • Portal: https://www.verba-alpina.gwi.uni-muenchen.de/ (DOI:https://dx.doi.org/10.5282/verba-alpina; online seit 2015)
  • Full stack Entwicklung
  • Frontend: WordPress
  • Backend: MySQL-Datenbank
  • Staff: 2 Informatiker (65% Zeitanteil), zeitweise unterstützt durch Hilfskraft
  • Interaktive Karte:
    • JS-Bibliotheken Leaflet, Pixi, WebGL
    • sehr leistungsfähig (nötig bei zahlreichen Kartensymbolen und Grenzverläufen! Demo)
    • detaillierte Beschreibung
  • Hosting auf den Servern der IT-Gruppe Geisteswissenschaften (ITG):
    • Professionelle IT-Umgebung
    • hohe Verfügbarkeit der Webkomponenten (Web- und DB-Server)
    • Betrieb der Website auch über Projektende hinaus

Die IT-Gruppe Geisteswissenschaften (ITG)

  • seit 2000
  • unbefristete Existenzperspektive
  • zuständig für die 6 geisteswissenschaftlichen Fakultäten der LMU
  • Aufgabengebiete:
    • IT-Infrastruktur
    • Forschung & Lehre digital
    • Forschungsdatenmanagement (FDM)
  • Personal:
    • dauerhaft: 5 Wissenschaftler, 2 Techniker;
    • variabel: drittmittelfinanzierte Projektmitarbeiter
  • Technische und konzeptionelle Unterstützung von DH-Projekten von Anbeginn (56 Stand 11/2021; Liste)

Bibliographie

  • ADDU = Thun, Harald / Elizaincín, Adolfo (2000-): Atlas lingüístico diatópico y diastrático del Uruguay, Kiel, Westensee
  • AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
  • ASD = Krefeld, Thomas / Lücke, Stephan / Mages, Emma (2016): Audioatlas Siebenbürgisch-Sächsischer Dialekte , München, Ludwig-Maximilians-Universität. Link
  • ASLEF = Pellegrini, Giovan Battista (1974-1986): Atlante storico-linguistico-etnografico friulano, Padova, vol. 1-6
  • AsiCa = Krefeld, Thomas / Lücke, Stephan (2006-2017): Atlante sintattico della Calabria, München. Link
  • Asica 2.0 = Krefeld, Thomas / Lücke, Stephan (2019): Atlante sintattico della Calabria. Rielaborato tecnicamenta da Veronika Gacia e Tobias Englmeier, München. Link
  • DRG = De Planta, Robert/ Melcher, Florian/ Pult, Chasper/ Giger, Felix (1938ff.): Dicziunari Rumantsch grischun, Chur, Inst. dal Dicziunari Rumantsch Grischun. Link
  • DWDS = Berlin-Brandenburgische Akademie der Wissenschaften (Hrsg.) (2004-): Das Digitale Wörterbuch der deutschen Sprache, Berlin. Link
  • GPSR = Gauchat, Louis (Hrsg.) (1924ff.): Glossaire des patois de la Suisse romande, Genève [u.a.], Droz [u.a.]
  • Idiotikon = (1881 ff.): Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch, Basel. Link
  • Krefeld 2018 g = Krefeld, Thomas (2018): I principi FAIR nel progetto VerbaAlpina, ossia il trasferimento della geolinguistica alle Digital Humanities. Link
  • Krefeld/Lücke 2020 = Krefeld, Thomas / Lücke, Stephan (2020): 54 Monate VerbaAlpina – auf dem Weg zur FAIRness, in: Ladinia, vol. XLIII, 139-156. Link
  • Metropolitalia = Krefeld, Thomas / Lücke, Stephan / Bry, François (2010-2013): Metropolitalia. Social Language Tagging, München. Link
  • VALTS = Gabriel, Eugen (1985-2004): Vorarlberger Sprachatlas mit Einschluss des Fürstentums Liechtenstein, Westtirols und des Allgäus , vol. 1-5, Bregenz, vol. 1-5, Vorarlberger Landesbibliothek
  • VIVALDI = Kattenbusch, Dieter/ Tosques, Fabio (1998-2016): VIVALDI: Vivaio Acustico delle Lingue e dei Dialetti d'Italia. Aktustischer Sprachatlas der Dialekte und Minderheitensprachen Italiens., Berlin, Humboldt-Universität Berlin, Institut für Romanistik. Link
  • VSI = Sganzini, Silvio (1952ff): Vocabolario dei dialetti della Svizzera italiana, Lugano, Tipografia la Commerciale
  • VerbaAlpina = Krefeld, Thomas / Lücke, Stephan (2014-): VerbaAlpina. Der alpine Kulturraum im Spiegel seiner Mehrsprachigkeit, München. Link
  • WBOe = Bauer, Werner/ Kranzmayer, Eberhard. Institut für österreichische Dialekt- und Namenlexika (Hrsg.) (1970–): Wörterbuch der bairischen Mundarten in Österreich, Wien, Verl. der Österr. Akad. der Wiss.

Die Konzeption einer interlingualen Geolinguistik im Projekt VerbaAlpina (Zitieren)

Thomas Krefeld
Schlagwörter: DH , Digital Humanities , Geolinguistik , Mehrsprachigkeit , Onomasiologie , Substrat , Superstrat

(3370 Wörter)

 

Abstract
Die Untersuchungsgebiete der Dialektologie werden üblicherweise nach nationalen und nationalsprachlichen (d.h. politischen) Kriterien zugeschnitten. Das ist geolinguistisch unangemessen und wird weder den grenzüberschreitenden Räumen noch den traditionell mehrsprachigen Arealen gerecht. Ein Untersuchungsgebiet wie der Alpenbogen, in dem die drei großen europäischen Sprachfamilien (Romanisch, Germanisch, Slawisch) seit anderthalb Jahrtausenden in Kontakt stehen, erzwingt die Überführung der Dialektologie in eine interlinguale Geolinguistik. Denn nur so wird es möglich die historische Verflechtung der drei Kontinua (Romanisch, Germanisch, Slawisch) mit ihrer ausgeprägten lokalen Variation zu erfassen. Auf der Grundlage von Web-Technologie wird im Projekt VerbaAlpina (https://www.verba-alpina.gwi.uni-muenchen.de/) seit 2014 eine entsprechende Methodologie in der Perspektive der Digital Humanities entwickelt.

1. Eine dynamische Disziplin

Die Geolinguistik untersucht die Raumgebundenheit und die räumlich bedingte Variation der Sprachen. Die methodologische Entwicklung der Disziplin – um die wertende Rede von ihrem ‘Fortschritt’ zu vermeiden – spiegelt veränderte Sprachauffassungen ebenso wie den tiefgreifenden Wandel der Medien. Besondere Herausforderungen ergaben sich einerseits aus der kontinuierlich wachsenden Bedeutung, die der Mehrsprachigkeit im Allgemeinen und der mehrsprachigen Kompetenz der einzelnen Sprecher*innen im Besonderen beigemessen wurde  und andererseits aus dem zunehmenden Einsatz von Webtechnologie in der Forschungspraxis.

2. Von der traditionellen Einsprachigkeit zur Mehrsprachigkeit

Die traditionelle Dialektologie1 zielt auf die Beschreibung monodimensional verstandener sprachlicher (dialektaler) Systeme; Variation innerhalb der lokalen Sprachen wird weitestgehend ausgeblendet. Gerade diese Forschungstradition hat in Gestalt der Sprachatlanten eine spezifische und mittlerweile ebenso elaborierte wie differenzierte Form der Dokumentation hervorgebracht. Aber diese Gattung macht auch auf einige nachgerade erstaunliche Beschränkungen aufmerksam (vgl. Krefeld/Lücke 2021):

  1. Die Untersuchungsgebiete der dialektologischen Forschung werden – außer Im Fall lokaler Einzelstudien – üblicherweise nach Maßgabe nationaler und nationalsprachlicher (d.h. politischer) Territorien2 zugeschnitten; das gilt gerade auch im Fall der Regionalatlanten, die Teilen des nationalen Territoriums gewidmet sind  (vgl. z. B. ALG). Dieses Prinzip ist in doppelter Hinsicht fragwürdig:
    - Es verzerrt die Darstellung des romanischen Kontinuums, weil es eine Relevanz der Staatsgrenzen suggeriert; Staatsgrenzen  sind aber allenfalls Grenzen der Standard- bzw. Dachsprachen, die sich gerade nicht auf die Gliederung der überdachten Varietäten abbilden lassen.
    - Es hat zur systematischen Vernachlässigung grenzüberschreitender Areale geführt.
  2. Traditionell nicht romanischsprachige Areale, deren Sprachen auf keinen Fall ‘Dialekte’ der Nationalsprachen sein können,  werden innerhalb nationaler Territorien oft nicht berücksichtigt; das ist wegen der häufig festzustellenden historischen Verschiebung der Sprachgrenzen in Folge von arealem Sprachwechsel unglücklich, denn es erschwert die Dokumentation und Analyse der historischen Sprachkontakts.

Die beiden Punkte sind übrigens starke Argumente dafür, raumorientierte sprachwissenschaftliche Forschung nicht grundsätzlich unter dem engen Begriff der Dialektologie, sondern eher unter dem weiteren Begriff der Geolinguistik zu subsumieren. Im Projekt VerbaAlpina wird das dialektale Lexikon des Alpenraums dokumentiert; der Alpenraum wird über die politischen Gemeinden definiert, die im Perimeter der sogenannten Alpenkonvention liegen. Da in diesem Untersuchungsgebiet die drei großen europäischen Sprachfamilien (Romanisch, Germanisch, Slawisch) seit anderthalb Jahrtausenden in Kontakt stehen, war es weiterhin notwendig die Geolinguistik als interlingual zu spezifizieren.

2.1 Die Modellierung der Mehrsprachigkeit

Auf der Kartenoberfläche wird die Mehrsprachigkeit des Untersuchungsgebiets als synchrones räumliches Nebeneinander der drei genannten Sprachfamilien modelliert (vgl. Interaktive Karte). Auf die Spezifizierung von Einzelsprachen (’Italienisch’) und Dialektzonen (wie z.B. ‘Lombardisch’) wurde dagegen verzichtet; die Bezugsgröße der Georeferenz ist grundsätzlich die politische Gemeinde, d.h. es werden potentiell die lokalen Sprachen (Dialekte) sämtlicher, beinahe 6000 Gemeinden der Alpenkonvention identifiziert. Für zahlreiche Gemeinden sind natürlich de facto  (noch) keine Daten verfügbar. Die Gruppierung der lokalen Sprachen/Dialekte zu regionalen Typen wie z.B. Lombardisch ist zwar ein traditionelles Anliegen der Sprachgeographie, das sich in einigen bekannten Karten niedergeschlagen hat.  Aus einer Bottom Up-Perspektive, die von lokalen Daten ausgeht, ist die dort vorgeschlagene Zonierung jedoch wenig transparent und nicht zielführend. Es steht den Nutzern aber selbstverständlich frei eine eigene Klassifikation vorzunehmen und einen lokalen Dialekt, der z.B. in der Region Lombardia liegt, der zur Alpenkonvention gehört und in VA mit Sprachdaten belegt ist, wie z.B. den Dialekt von Colico am Comersee, als ‘lombardisch’ zu bezeichnen.

Übrigens ist schon die Zuordnung einer Gemeinde zum Gebiet einer der drei Sprachfamilien alles andere als selbstverständlich, denn es werden bereits in der Zusammenschau der unten genannten Quellen historische Verschiebungen sichtbar. Vor allem in Graubünden sind mehrere Orte, die in den Netzen des AIS (Kartensymbol A) und vor allem des DRG (Kartensymbol B) als romanischsprachig geführt werden, mittlerweile zum Deutschen gewechselt, d.h. sie liegen auf der folgenden Karte im grün unterlegten Gebiet. Man beachte, dass alle VA-Karten rein virtueller Natur sind und nur auf den Endgeräten der Nutzer erscheinen; es liegen also keine digitalisierten graphischen Karten zu Grunde, wie es in anderen geolinguistischen Projekten, die online konsultierbar sind, der Fall ist. Die virtuelle Kartographie wurde von Florian Zacherl und vor allem von David Englmeier konzipiert und implementiert.

Sprachwechsel in Graubünden am Beispiel einiger ehemals romanischsprachiger Orte des AIS und des DRG (interaktives Original)

In kontaktlinguistischer Hinsicht bedeutet der Sprachwechsel den lokalen Übergang von einer Adstrat- in eine Substratkonstellation. Es ist jedoch im Hinblick auf das räumlich Nebeneinander der Sprachfamilien und lokalen Sprachen/Dialekte wichtig zu sehen,  dass VA weniger daran interessiert ist im Sinne einer Mosaikdarstellung der Sprachlandschaft lokale oder regionale Sprachgrenzen herauszuarbeiten als vielmehr daran gerade die verbindenden Fugen zwischen den Steinchen, d.h. die gemeinsamen Merkmale zwischen den lokalen Sprachen herauszuarbeiten. Für den spezifisch alpinen Wortschatz wurde in der historischen Sprachwissenschaft der Ausdruck Alpenwörter geprägt:

3. Neue mediale Rahmenbedingungen

3.1 Aggregation unterschiedlicher Typen von Quellen

Alle Probleme, die sich aus dem spezifisch nationalen geographischen Zuschnitt der Untersuchungsgebiete bereits existierender Atlanten ergeben, lassen sich auf der Grundlage webbasierter Vorgehensweise überwinden; denn die erfassten Räume können aggregiert und integriert werden, da es technisch einfach ist die jeweiligen Ortsnetze virtuell miteinander zu verknüpfen. Die folgende Karte zeigt, welche Atlanten in die Dokumentation eingebunden werden konnten. Notwendige Voraussetzung ist die Georeferenzierbarkeit der Sprachdaten. Es darf jedoch nicht verschwiegen werden, dass der Umfang der tatsächlich übernommenen Daten sehr stark variiert: Manche Projekte stellten im Rahmen von Kooperationsabkommen große Mengen zur Verfügung (vorbildlich war insbesondere die Zusammenarbeit mit dem ALD-I und dem ALD-II), andere konnten nur sehr selektiv und mit aufwändiger Handarbeit retrodigitalisiert werden; dafür wurden von Florian Zacherl spezielle Tools (zur Transkription, zur Typisierung usw.) entwickelt.

VA Informanten aus Atlanten (interaktives Original)

Nun gibt es zusätzlich zu den Atlanten im engeren Sinn auch etliche, teils exhaustiv konzipierte Dialektwörterbücher, die in der geographischen Logik eines Atlasses realisiert wurden und alle erfassten Formen spezifischen Orten zuweisen. Diese Wörterbuchdaten werden in VA gemeinsam mit den Atlasdaten visualisiert, wobei es – wie im Fall der Atlanten – sehr umfangreiche Wörterbücher gibt, deren Daten  praktisch nicht verwendbar, weil nicht interoperabel. Dies betraf bis vor kurzem ausgerechnet die Daten des WBOE (rosafarbenes Kartensymbol 'J'), die sehr wichtig sind, da sie das große österreichische Gebiet abdecken, für das keine Atlanten zur Verfügung stehen; in Gestalt des Lexikalischen Informationssystem Österreich (LIÖ, rosa Kartensymbol 'J') deutet sich nun eine Lösung an. Andere, ebenfalls große und interoperable Wörterbücher verdichten Daten in Gebieten, die bereits durch Atlanten erschlossen sind, so der bündnerromanische  DRG (gelbes Kartensymbol 'D'), der tessinische VSI (hellgelbes Kartensymbol 'I') und der Glossaire des patois de la Suisse romande (GPSR). Einen Überblick gibt die folgende Karte:

VA Informanten aus Wörterbücher (interaktives Original)

Weiterhin werden Daten aus einem dritten Quellentyp in VA eingespeist, denn David Englmeier hat ein spezielles Tool für die direkte Erhebung von neuen Sprachbelegen entwickelt (vgl.  Mitmachen). Dieses als Crowdsourcing bekannte Verfahren steht in der aktuellen Projektphase im Zentrum, da es jetzt um die Bezeichnungen moderner Konzepte  geht (Ökologie, Tourismus), die in den traditionellen Atlanten ebenso wie in den allermeisten Wörterbüchern fehlen. Wie die folgende Karte zeigt, ist der Erfolg des Crowdsourcings sehr stark von der jeweiligen Region abhängig; die Gründe dafür sind zwar unklar, aber es ist zu vermuten, dass in den französischen Westalpen die Erosion der Dialektkompetenz in der Altersgruppe mit der stärksten Internetaffinität eine große Rolle spielt (#vgl. dazu demnächst BC/AR)#.

VA Informanten aus der Crowd (28.9.2021, interaktives original)

3.2 Technische Verknüpfung der Sprachen/Dialekte

Entscheidend für die synoptische Darstellung von Formen aus den unterschiedlichen Sprachen und Sprachfamilien ist ihre Verknüpfung in der Struktur des Datenbestands. Sie erfolgt in zweifacher und komplementärer Hinsicht, nämlich auf der Ebene der sprachlichen Bezeichnungen und auf der Ebene der außersprachlichen Sachverhalte (KONZEPTE).

3.2.1 Ebene der sprachlichen Bezeichnungen

Auf der Ebene der sprachlichen Formen werden die zahlreichen Belege typisiert, d.h. die rein phonetischen Varianten werden zu morpho-lexikalischen Typen gruppiert, die auf der Nutzeroberfläche gesucht werden können. Diese Typen sind spezifisch für eine der drei Sprachfamilien; falls möglich repräsentieren die Varianten der großen Nationalsprachen Französisch und Italienisch die Menge aller Varianten eines Typs. So liefert die Suche nach fra. beurre / it. burro eine Karte mit 718 Varianten (in Version 21/1), die jeweils durch Anklicken des Symbols eingesehen werden können:

der morpho-lexikalische Type beurre/burro (roa) (interaktive Originalkarte)

Darunter sind auch die entsprechenden Formen der romanischen Kleinsprachen, wie z.B. botiro im Ladinischen von Moena  (Fassatal) oder friaulisch butiro   in Clauzetto. Die Kategorie des morpho-lexikalischen Typs funktioniert also bereits interlingual im Rahmen einer Sprachfamilie.

Nun gehören offensichtlich auch deu. Butter und dialektal slowenisches put(e)r zu dieser Gruppe, allerdings muss es sich bei entsprechenden germanischen und slawischen Formen um Entlehnungen aus dem Romanischen handeln.  Solche Typen, die in mehr als einer Sprachfamilie belegt sind, werden in VA als ‘Basistypen’ gefasst.  Sie werden durch die jeweils identifizierbare etymologische Ausgangsform repräsentiert, im Fall von fra. beurre, deu. Butter usw. ist das lat. butyrum (eigentlich ein griechisches Lehnwort). Die Suche nach diesem Basistyp produziert eine Karte mit den zugehörigen Formen in allen relevanten Sprachfamilien:

der Basistyp. lat. butyrum (interaktive Originalkarte)

Obwohl der Basistyp etymologische Zusammenhänge identifiziert, seien sie nun erbwörtlicher oder entlehnungsgeschichtlicher Natur, wurde ausdrücklich Wert darauf gelegt, ihn nicht als ‘Etymon’ bzw. als ‘etymologischen Typ’ zu bezeichnen. Denn die Zuordnung des Basistypen sagt noch nichts über die Wortgeschichte der zugeordneten Typen aus den unterschiedlichen Sprachfamilien aus.

3.2.2 Ebene der Konzepte

Falls an der Nutzeroberfläche ein Konzept gesucht wird, liefert das System alle erfassten sprachlichen Bezeichnungstypen.

Bezeichnungen des Konzepts BUTTER (unvollständige Legende; interaktive Originalkarte)

Unter den sehr zahlreichen Bezeichnungen ist auch der germanische Basistyp Schmalz, der – in umgekehrter Entlehnungsrichtung wie der Basistyp butyrum – aus dem Deutschen ins Romanische gelangt ist, wie der Legende hervorgeht:

Ausschnitt aus der Legende von Karte ## (interaktive Originalkarte|https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=133&db=xxx&tk=3972&layer=4]])

Die ethnographischen Hintergründe der gegenläufigen Entlehnungen (Lat.-Rom. → Deu. vs. Deu → Lat.-Rom.) müssen hier nicht im Detail ausgeführt werden. Es reicht festzuhalten, dass sich dem Anschein nach die Herstellung des Produkts (BUTTER) ausgehend vom Lat.-Rom. Gebiet verbreitet. Vom Deutschen ist dagegen das Auslassen der Butter (SCHMELZEN → SCHMALZ) , analog zum Auslassen des tierischen Fetts, vor allem des Schweinfetts als Konservierungstechnik der kaum haltbaren frischen Butter zu den Romanen gekommen (vgl. auch das so motivierte Kompositum Butterschmalz). Ähnlich sind sich die beiden Produkte BUTTER und SCHMALZ im Übrigen auch in anderer Hinsicht, etwa im hohen Fettgehalt (vgl. den lat. Basistyp unctum, dessen  romanischen Kognaten ebenfalls beides bezeichnen (vgl. Karte Basistyp lat. unctum.

Entscheidend ist nun, dass sich Im Hinblick auf die konzeptgeleitete Verknüpfung von Bezeichnungen mehrerer Einzelsprachen in den letzten Jahren vollkommen neue Optionen ergeben haben. Durch die mittlerweile zur Verfügung stehenden, sehr umfangreichen, Bestände von sachbezogenen Normdaten lassen sich Konzepte ganz unabhängig von den sprachlichen Bezeichnungen relationieren und als autonomer Referenzbereich strukturieren; am weitesten fortgeschritten aber linguistisch allenfalls in Ansätzen genutzt sind die sogenannten ‘Datenobjekte’ des Wikidata-Projekts (vgl. Krefeld 2021d). Dabei handelt es sich um Identifikatoren (QIDs), mit denen die enzyklopädischen Inhalte der Wikipedia identifiziert werden. Die  entsprechende QID für BUTTER (zugänglich über den Button ‘Wikidata-Datenobjekt’ in der linke Menüspalte des Wikpedia-Eintrags Butter)  lautet Q34172. Aus diesem Wikidata-Eintrag geht hervor, das es in 141 Sprachversionen der Wikipedia Artikel zu dem Konzept BUTTER gibt (Stand vom 2.11.2021); alle diese 141 Artikel referenzieren auf die genannte ID. Darunter sind auch etliche Versionen aus romanischen Sprachen, historisch wichtige Vorgänger- und Bezugssprachen sowie zahlreiche europäische und koloniale Entlehnungen aus dem Romanischen: 

Romanische Bezeichnungen europäische Entlehnungen
Herkunftssprachen Entlehnungen im kolonialen Kontext

Eine analoge Tabelle ließe sich auch für den Wikidata-Eintrag SCHMALZ (lard (Q72827)) zusammenstellen, in der sich Sprachversionen mit Bezeichnungen finden, die offenkundig auf die Übertragung der Bezeichnungen von BUTTER zurückgehen, so asturisch mantega de gochu, wörtlich ‘Butter vom Schwein’  oder span. manteca de cerdo, wörtlich ebenfalls ‘Butter vom Schwein’. Wichtig für die Organisation der onomasiologischen – oder informationstechnisch gesagt: ontologischen – Einheiten ist ihre Verknüpfung in Gestalt von dreigliedrigen Prädikatsausdrücken oder: Tripeln (so genannten ‘statements’), die im Wikidata-Projekt vorgenommen wird. Im Fall unserer Beispiele BUTTER und SCHMALZ finden sich (Stand vom 7.11.2021) u.a. folgende ‘statements’:

butter (Q34172) instance of (P31) food ingredient (Q25403900)
subclass of (P279) dairy product
edible fats and oils (Q912613)
lard (Q72827) instance of (P31) chemical substance (Q79529)
food ingredient (Q25403900)
subclass of (P279) edible fats and oils (Q912613)
die Wikidata-Statements zu den Konzepten BUTTER und SCHMALZ

Diese  Tripel leisten einen fundamentalen Beitrag zum sogenannten Semantic Web, denn sie sind in das dafür erforderliche Format der RDF-Tripel überführbar. man beachte, dass es sich aus linguistischer Sicht gerade nicht um ein ‘semantisches’ (sprachgebundenes), sondern um ein onomasiologisches (sprachunabhängiges) Netz handelt. Es ist offensichtlich, dass elementare Gemeinsamkeiten der beiden Konzepte bereits zum Ausdruck kommen. Die Wikidata-Datenbank ist durch eine formale Sprache (SPARQL) abfragbar, so dass potentielle semantische Gemeinsamkeiten zwischen den Bezeichnungen und die darauf beruhenden Übertragungen durch semantische Prozesse (Metaphern, Metonymien, Meronymien, taxonomische Verschiebungen) gewissermaßen vorhersehbar bzw. motivier- und nachvollziehbar sind. So ergibt die Suche nach den ‘subclasses’ von ‘edible fats and oils’ die folgende Liste:

 wd:Q4287 Margarine
 wd:Q34172 Butter
 wd:Q72827 Schmalz
 wd:Q427457 Speiseöle
 wd:Q1194601 Shortening
 wd:Q1423543 Tierfett
 wd:Q1727434 Streichfett
 wd:Q2310378 Horse fat
 wd:Q11870297 Pflanzenfett
 wd:Q68187377 Gänsefett

3

Nicht weniger offensichtlich ist jedoch auch die Tatsache, dass  wichtige Unterschiede wie die Arten der Produktion (SCHLAGEN VON RAHM im Fall von BUTTER und ERHITZEN im Fall SCHMALZ) oder die dafür benutzten Geräte (z.B. das BUTTERFASS) nicht abgebildet werden, obwohl das mindestens teilweise schon möglich wäre, da QIDs zur Verfügung stehen. Die Unterschiede schlagen sich ja auch in semantischen Prozessen nieder (pignatta, bündnerrom. pischada < lat. *pisiare ‘stampfen’; vgl. die interaktive Karte pischada). Daraus ergibt sich der Appell an einschlägige sprachwissenschaftliche Projekt, die Wikidata-Statements im jeweiligen thematischen Rahmen systematisch zu ergänzen.  

4. Stratigraphische Wortgeschichte

Die eigentliche wortgeschichtliche Zusammenhang des Basistyps mit den zugehörigen morpho-lexikalischen Typen muss vielmehr vom dem Hintergrund der sprachlichen Stratigraphie des Alpenraums erarbeitet werden. In dieser diachronen Perspektive kommt dem lateinisch-romanischen Stratum eine besondere Bedeutung für den Alpenraum zu. Denn seit 15 n.Chr. gehörte das gesamte Gebiet zum Römischen Reich: Im Gefolge der Romanisierung verschwanden alle vorrömischen Sprachen. Ein Teil wurde nach Zusammenbruch der römischen Infrastruktur (476 n.Chr.) germanisiert, ein anderer slawisiert – dort ist das Lateinisch-Romanische also Substratsprache; das Slawische ist teils auch vom Germanischen verdrängt  worden und in diesen Gegenden ebenfalls zum Substrat geworden.  Das Germanische war zudem im romanisch gebliebenen Alpengebiet ebenso wie im slawisierten Teil mehr oder weniger lang und in ganz unterschiedlicher sprachlicher Gestalt (Gotisch, Langobardisch, Bairisch bzw. bairisch geprägtes Hochdeutsch) Superstrat. Elemente der vorrömischen Sprachen sind im Lexikon und in Toponymie der gesamten Raum deutlich erkennbar (vgl. Krefeld 2020c) deutlich erkennbar; sie sind mit der allergrößten Wahrscheinlichkeit jedoch indirekt, d.h. über das Lateinisch-Romanische ins Alpengermanische bzw. ins Alpenslawische gelangt.

AKTUELLE AREALE Romanisch Germanisch (Deu.) Slawisch (Slow.)
ÖST. DEU. SUPERSTRAT
GERM. SUPERSTRAT SLAW. SUB.
ROMANISCHES SUBSTRAT
SPÄTANTIKE AREALE Lateinisch-Romanisch
VORRÖMISCHE SUBSTRATE
Sprachliche Stratigraphie des Alpenraums (vereinfachtes Schema)

Die Kontaktszenarien sind also vielfältig  und müssen jeweils ‘von Hand’ aufgearbeitet werden. Im Fall des oben bereits erwähnten Basistyps lat. butyrum (n.) ergibt sich abschließend etwa das folgende stratigraphische Schema:

AKTUELLE AREALE Romanisch
(1) beurre/burro (m.)
(2) butirro (m.)
Germanisch (Deu.)
die Butter (f.)

Slawisch (Slow.)
puter (Dial.)
der Butter (m.) ÖST. DEU. SUPERSTRAT ↑
↑ (2)
↑ ROMANISCHES SUBSTRAT
SPÄTANTIKE AREALE Varianten (1) bútyrum (2) butȳrum – Lateinisch-Romanisch
Stratigraphie des Basistyps lat. butȳrum (nicht relevante Strata ausgeblendet)

  1. Damit sind die klassischen Atlanten der ‘ersten Generation’ gemeint; zur historischen Modellierung der Dialektologie nach Generationen vergleiche Krefeld/Lücke 2021

  2. Die Opposition von staatlich institutionalisierten und oft offizialisierten Sprachterritorien einerseits und nicht institutionalisierten Spracharealen andererseits wurde in Krefeld 2004a, 23 f., vorgeschlagen. Beide kommunikationsräumliche Kategorien (sowohl die sprachliche Territorialität wie die sprachlich Arealität) sind  sprachsoziologisch zu verstehen und keineswegs verhaltensbiologisch im Sinne eines instinktiven, genetisch konditionierten Revierverhaltens. Ganz unabhängig von der Frage, ob es sinnvoll ist, der Spezies Homo sapiens ein solches Verhaltensmuster zuzumuten, ist es nicht die Aufgabe moderner demokratischer Staatswesen quasi biologische Kategorien in die Organisation des sozialen Raums einzuschreiben. Institutionen sind historisch-kultureller Natur und dementsprechend grundsätzlich nicht deterministisch, sondern regulativ und veränderlich. Auch Mehr- und Vielsprachigkeit kann und soll selbstverständlich in territorialer Weise geregelt werden. Reviere sind ausgrenzend – staatliche Territorien können und sollten integrativ definiert sein. 

  3. Die Abfrage lautet:
    SELECT ?item ?itemLabel
    WHERE
    {
    ?item wdt:P279 wd:Q912613.
    SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }


Bibliographie

  • AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
  • ALD-I = Goebl, Hans (1998): Atlant linguistich dl ladin dolomitich y di dialec vejins I, vol. 1-7 (sprechend: http://ald.sbg.ac.at/ald/ald-i/index.php), Wiesbaden, vol. 1-7, Reichert. Link
  • ALD-II = Goebl, Hans (2012): Atlant linguistich dl ladin dolomitich y di dialec vejins, 2a pert, vol. 1-5, Editions de Linguistique et de Philologie. Link
  • ALG = Séguy, Jean (1973): Atlas linguistique de la Gascogne, Toulouse, vol. 6, Inst. d'Études Mérid. de la Fac. des Lettres [u.a.]
  • DRG = De Planta, Robert/ Melcher, Florian/ Pult, Chasper/ Giger, Felix (1938ff.): Dicziunari Rumantsch grischun, Chur, Inst. dal Dicziunari Rumantsch Grischun. Link
  • GPSR = Gauchat, Louis (Hrsg.) (1924ff.): Glossaire des patois de la Suisse romande, Genève [u.a.], Droz [u.a.]
  • Krefeld 2004a = Krefeld, Thomas (2002): Einführung in die Migrationslinguistik. Von der Germania italiana in die Romania multipla, Tübingen, Narr
  • Krefeld 2020c = Krefeld, Thomas (2020): Polystratale und monostratale Toponomastik – am Beispiel der Romania Submersa und der Insel La Réunion, Version 4 (02.04.2020, 11:26), München, in: Korpus im Text. Link
  • Krefeld 2021d = Krefeld, Thomas (2021): Wikidata – semiotisch: Mit Roland Barthes im Internet, München, in: Korpus im Text, Serie A, 71498. Link
  • Krefeld/Lücke 2021 = Krefeld, Thomas / Lücke, Stephan (2021): (Unsere) Prinzipien der virtuellen Geolinguistik. Link
  • LIÖ = Lenz, Alexandra N. (o.J.): Lexikalisches Informationssystem Österreich (LIÖ). Link
  • VSI = Sganzini, Silvio (1952ff): Vocabolario dei dialetti della Svizzera italiana, Lugano, Tipografia la Commerciale
  • VerbaAlpina = Krefeld, Thomas / Lücke, Stephan (2014-): VerbaAlpina. Der alpine Kulturraum im Spiegel seiner Mehrsprachigkeit, München. Link
  • WBOE = Bauer, Werner/ Kranzmayer, Eberhard. Institut für österreichische Dialekt- und Namenlexika (Hrsg.) (1970–): Wörterbuch der bairischen Mundarten in Österreich, Wien, Verl. der Österr. Akad. der Wiss.

Einarbeitung Crowdsourcing (Zitieren)

Christina Mutter


(505 Wörter)

Was versteht man unter Crowdsourcing?

„Crowdsourcing ist eine interaktive Form der Leistungserbringung, die kollaborativ oder wettbewerbsorientiert organisiert ist und eine große Anzahl extrinsisch oder intrinsisch motivierter Akteure unterschiedlichen Wissensstands unter Verwendung moderner IuK-Systeme auf Basis des Web 2.0 einbezieht." (Martin/Lessmann/Voß 2008)

IuK = Informations- und Kommunikationssystem

- Begriff geht auf Howe (2006) zurück

- Blending, d. h. Wortkreuzung, aus Outsourcing und Crowd Intelligence (Schwarmintelligenz)

-  Alternative zu den klassischen Verfahren indirekter Datenerhebung (durch Fragebögen)

Vorteile

- vergleichsweise kostengünstig (im Gegensatz zur direkten Erhebungsmethode)

- erfordert in der Regel weniger Personal

- Teilnahme ist zeit- und ortsunabhängig

Warum wird Crowdsourcing bei VerbaAlpina angewandt?

Das Sprachmaterial, das VerbaAlpina zusammenträgt und analysiert, stammt in erster Linie aus Sprachatlanten und aus georeferenzierten Wörterbüchern aus dem Alpenraum. Diese Quellen decken jeweils nur geographische Teilbereiche des Alpenraums ab und differieren z.T. erheblich hinsichtlich Entstehungszeit und dokumentierten Konzepten. Auf diese Weise entsteht ein zunächst inhomogener Datenbestand, der mit Hilfe von Crowdsourcing ausgeglichen, ergänzt und korrigiert werden soll.

Crowdsourcing Tool

Funktionsweise

https://www.verba-alpina.gwi.uni-muenchen.de/crowdsourcing

- eine zentrale Frage: „Wie sagt man zu ,Begriff‘ in ,Gemeinde‘?“

- Begriffe aus den Konzeptdomänen Almwirtschaft, Natur und modernes Leben (entsprechend der 3 Projektphasen von VA)

- Bestenlisten

- Möglichkeit zur Registrierung

Live-Statistik zum Crowdsourcing

- Erfolg hängt von Publicity-Maßnahmen ab: CS-Aktivität steigt jedes Mal an, wenn CS zuvor in der Öffentlichkeit entsprechend beworben wurde

- Maßnahmen variieren jedoch in Ertrag und Reichweite teils stark

- vor allem Projektberichte im Internet (auf Websites von Radiosendern, Zeitungen, Portalen oder auf Social Media, z.B. in Form von Posts in Facebook-Gruppen, in denen die Gruppenmitglieder zur Teilnahme am Crowdsourcing aufgerufen werden) ziehen den größten Ertrag und die größte Reichweite nach sich, da die Sprecher dort über einen Link direkt online zum CS weitergeleitet werden, ohne davor das Medium wechseln zu müssen

- geringster Erfolg bei Radiointerviews und populärwissenschaftlichen Vorträgen

Was passiert mit den eingesendeten Belegen?

--> sofort sichtbar auf Karte im CS-Tool + landen direkt in der DB --> Typisierung --> interaktive Karte

CS in Phase I und II

Auch noch mittels analoger Medien: Artikel in Zeitungen und Zeitschriften, Vorträge, Radiointerviews, Flyer

CS in Phase III

Schwerpunkt Social Media

Vorgehen CS in Phase III

- Konzeptrecherche nach Orten (bereits abgeschlossen)

- Formulierung der Konzeptbeschreibungen (bereits abgeschlossen)

- Bildrecherche (wikipedia/wikimedia commons/unsplash.com) (bereits abgeschlossen)

- Kontaktrecherche auf Facebook/Instagram/via Google (Gruppierungen/Personen, die in irgendeiner Form mit Ökologie und Tourismus zu tun haben), Erfassen der Kontakte in der Tabelle "Crowdkontakte" in der DB

- Kontaktieren der Kontakte via Facebook/Instagram/E-Mail (v.a. Diejenigen, die via Facebook/Instagram zuvor nicht reagiert haben) (siehe vorformulierte Texte)

- Verfassen von Posts und Stories auf Englisch (Posts 1-2/Woche, Stories ca. 1/jeden 2. Tag) (Übergabe von Anna im November 2021)

bislang folgende Rubriken:

Posts:

- Karten mit Belegen im ganzen Alpenraum (gespeist aus den Belegen aus den Stories)

- Theorie zu Dialekten (Dialects – False myths to fight)

- Wörter in den Alpen

- Kurzvideos

Stories:

- How do you call this in your dialect?

Zugangsdaten Facebook/Instagram

 

Bewerbung des Projekts VerbaAlpina für den Open Data Impact Award 2021 (Zitieren)

Christina Mutter


(550 Wörter)

1. Deckblatt

2. Anschreiben

Um welche Daten handelt es sich? Wer war an der Datenerstellung beteiligt?

In erster Linie handelt es sich um Sprachdaten aus den im Alpenraum gesprochenen Nationalsprachen und deren Dialekten. Der Großteil der Daten stammt aus den für diesen Raum verfügbaren traditionellen Sprachatlanten und Wörterbüchern mit georeferenzierten Belegen aus drei verschiedenen Konzeptdomänen: Almwirtschaft, Natur und moderne Lebenswelt. Dieses historische Material wird über ein Crowdsourcing-Tool um aktuellen Dialektwortschatz ergänzt. Durch diese online gesammelten Daten erhält das Projekt auch eine diachrone Perspektive, die die Beobachtung von Sprachwandel z.B. vor dem Hintergrund wirtschaftlicher und/oder demographischer Veränderungen erlaubt. Um dies zu ermöglichen, sammelt VerbaAlpina auch die Sprachdaten ergänzende Daten, etwa zu Siedlungen, Inschriften und Toponymen.

Über welche Wege wurden die Daten zugänglich gemacht? Wie wurden die FAIR-Kriterien umgesetzt?

VerbaAlpina ist bemüht, alle datenbezogenen Verfahren an den FAIR-Kriterien auszurichten. Der Auffindbarkeit der Daten dient u. a. die Kooperation mit der Universitätsbibliothek (UB) der LMU im Rahmen des Projekts „e-humanities – interdisziplinär“. Im Zuge dessen wird der Datenbestand von VerbaAlpina mit Metadaten im Datacite-Format versehen und im Open Data Repositorium der UB abgelegt. Dies ermöglicht das gezielte Auffinden der einzelnen Datensätze über den Bibliothekskatalog der UB (Discover). Die Daten von VerbaAlpina werden über die API-Schnittstelle, die interaktive Karte sowie das Lexicon Alpinum zugänglich gemacht. Alle Projektdaten werden zudem unter eine Open Access konforme Creative Commons-Lizenz gestellt. Die Verknüpfung mit Normdaten dient sowohl der Auffindbarkeit als auch der Interoperabilität der Daten. Neben der Verknüpfung der Kernentitäten des Projekts (morpho-lexikalische Typen, Konzepte und Gemeinden) mit projektspezifischen Normdaten, werden zur Verknüpfung dieser mit externen Datensätzen zusätzlich Identifikatoren externer Institutionen integriert: Gemeinsame Normdatei (GND), Q-/L-IDs von Wikidata, Geonames, Sprachcodes nach ISO 639-3 und diverse Referenzwörterbücher. Zum direkten Verweis auf einzelne Objekte wird jedes Datenobjekt zudem mit eigener URL versehen und erhält im Discover-Dienst der UB einen persistenten Identifikator (auch DOI).

Wie hat die Veröffentlichung Ihrer Forschungsdaten zu einer Innovation außerhalb des akademischen Betriebs geführt?

Die grundlegende Innovation besteht in der Einbindung nicht akademischer Informanten und interessierter Nutzer in die Forschungskommunikation. Auf der Basis konsequent webbasierter Arbeit sind alle Forschungsdaten standortunabhängig veränderbar und konsumierbar. Das bedeutet eine radikale Demokratisierung, denn die Ergebnisse sprachwissenschaftlicher Forschung werden den Sprechern selbst wieder zur Verfügung gestellt. Zur praktischen Umsetzung dieses Ziels wurden vollkommen neue, attraktive Visualisierungs- und Präsentationsweisen konzipiert und realisiert (Interaktive Karte, Lexicon Alpinum). Diese Öffnung der akademischen Forschung für Jedermann wird durch kontinuierliche Öffentlichkeitsarbeit in traditionellen Medien und social media unterstützt (Dokumentation).

Welchen Mehrwert zieht die Gesellschaft aus der Nachnutzung Ihrer Forschungsdaten?

Die Forschungsdaten zeigen die historisch enge Verschränkung der französischen, schweizerischen, italienischen, deutschen und slowenischen Dialekträume seit (vor)römischer Zeit. Im spezifisch alpinen Vokabular und der bezeichneten Sachkultur sind sich alle Dialekte dieses Raums substantiell viel ähnlicher, als die vollkommen verschiedenen Hochsprachen erwarten lassen. So wird eine gemeinsame transnationale Identität der Regionen offensichtlich und die nationale Komponente der regionalen Identität in selbstverständlicher Weise relativiert.

Welches Projekt soll durch die Fördermittel angestoßen werden? Welche Institution ist Mittelempfänger (Hochschule, Forschungsinstitution)?

Die Fördermittel sollen darauf verwendet werden, die Konzeption und Umsetzung einer Kampagne zur Stärkung des Selbstbewusstseins der Dialektsprecher:innen hinsichtlich der Verwendung ihrer Dialekte anstatt hochsprachlicher Begriffe anzustoßen. Dabei soll besonders die Modernitätsfähigkeit von Dialekten hervorgehoben sowie deren lexikalische und mediale Präsenz gefördert werden. Mittelempfänger ist das an der Ludwig-Maximilians-Universität München angesiedelte Forschungsprojekt VerbaAlpina.

Fragebogen_Text für Übersetzung (Zitieren)

Beatrice Colcuc


(1457 Wörter)

Liebe TeilnehmerInnen,

in der Vergangenheit haben Sie an den sprachwissenschaftlichen Umfragen von VerbaAlpina teilgenommen. Wir möchten uns an dieser Stelle noch einmal für Ihre Unterstützung durch Zusendung von Wörtern aus Ihrer Mundart bedanken! Die SprecherInnen der alpinen Dialekte sind die unschätzbaren BewahrerInnen des sprachlichen Wissens der Alpen.

Wir würden uns sehr freuen, wenn Sie uns 10 Minuten Ihrer Zeit schenken könnten, um einen kurzen Fragebogen auszufüllen, damit wir mehr über Ihre Beweggründe für die Teilnahme an unserer Datenerhebung erfahren können. Das würde uns sehr helfen, die alpinen Sprechergemeinschaften besser zu verstehen und unsere Crowdsourcing-Plattform zu verbessern. Deshalb zählen wir auf Ihre Teilnahme. Der Fragebogen bleibt anonym.

Für Fragen oder weitere Informationen stehen wir gerne zur Verfügung. Vielen Dank im Voraus für Ihren wertvollen Beitrag!

Das Team von VerbaAlpina

[ Spoštovani sodelujoči,

V preteklosti ste že sodelovali v VerbaAlpininih jezikovnih anketah. Ob tej priložnosti bi se vam radi še enkrat zahvalili za podporo, ki ste nam jo izrazili s poslanimi besedami iz vašega narečja! Govorci alpskih narečij so neprecenljivi hranitelji jezikovnega znanja o Alpah.

Zelo bi bili hvaležni, če bi nam namenili 10 minut časa za izpolnitev kratkega vprašalnika, da bi lahko izvedeli več o vaših motivih za sodelovanje pri zbiranju podatkov. To bi nam zelo pomagalo bolje razumeti skupnosti govorcev v Alpah in izboljšati našo platformo za množično zbiranje podatkov. Zato računamo na vašo udeležbo. Vprašalnik bo ostal anonimen.

Če imate kakršnakoli vprašanja ali potrebujete dodatne informacije, smo vam na razpolago. Vnaprej se vam zahvaljujemo za vaš dragoceni prispevek!

Projektna ekipa VerbaAlpine ]


Alter
jünger als 18
19 – 25
26 – 40
41 – 50
51 – 60
61 – 70
71 – 80
älter als 80

[ starost
mlajši od 18
19 – 25
26 – 40
41 – 50
51 – 60
61 – 70
71 – 80
starejši od 80 ]


Wohngemeinde (wählen Sie bitte Ihre Gemeinde aus der Liste):
*Hier wird eine Liste aller Alpen-Gemeinden eingefügt*

[ občina prebivališča (prosimo da s seznama izberete svojo občino): ]

 

Seit wann leben Sie in Ihrer Wohngemeinde?
schon immer
seit (Jahreszahl angeben)

[ Od kdaj živite živite v občini vašega stalnega prebivališča?
že od nekdaj
že (število) let ]


Sie sind SprecherIn der Mundart der Gemeinde / der Mundarten der Gemeinden... (bitte wählen Sie die Gemeinden aus, von denen Sie die Mundart sprechen) (mehrere Werte auswählbar):
*Hier wird eine Liste aller Alpen-Gemeinden eingefügt*

[ Govorite narečje(-a) občine(-in), v kateri(-ih) živite... (izberite občine, od katerih govorite narečje) (imate možnost izbere več občin): ]


Was ist Ihr höchster Bildungsabschluss?
Grund-/Hauptschulabschluss
Realschule (Mittlere Reife)
Gymnasium (Abitur)
Abgeschlossene Ausbildung
Fachhochschulabschluss
Hochschule (Diplom, Magister, Bachelor, Master)
Hochschule (Promotion)
Kein Schulabschluss

[ Katera je vaša najvišja izobrazba?
Končana osnovna/srednja šola
Realschule (srednješolsko spričevalo)
Gimnazija (matura)
Zaključeno poklicno izobraževanje
Diploma Univerze za uporabne znanosti
Univerza (diploma, magisterij, bachelor, master)
Univerza (doktorat)
Brez zaključene izobrazbe ]


Berufsfeld (wenn sich Ihre berufliche Situation aufgrund der aktuellen Pandemie geändert hat, geben Sie bitte das Berufsfeld an, in dem Sie vor der Gesundheitskrise tätig waren)
Landwirtschaft / Viehzucht
Kunsthandwerk
Gesundheitswesen
Industrie
Transport (Transport von Personen und Gütern)
Öffentliche Verwaltung
Schule
Student
Haushalt
Tourismus (Gastronomie, Hotels, Skilifte, etc.)
Handel
Hochschule
Sonstige (spezifizieren)

[ Poklicno področje (če se je vaš poklicni status zaradi trenutne pandemije spremenil, navedite poklicno področje, na katerem ste delali pred zdravstveno krizo)
Kmetijstvo / živinoreja
Umetna obrt
Zdravstvo – Zdravstvena oskrba
Industrija
Transport (prevoz ljudi in blaga)
Javna uprava
Šola
Študent
Gospodinjstvo
Turizem (gastronomija, hoteli, žičnice itd.)
Trgovanje
Univerza
Razno (navedite) ]


Wie haben Sie von VerbaAlpina erfahren?
Über Twitter
Von einem Bekannten
Ich habe VerbaAlpina zufällig beim Surfen im Internet entdeckt
Dank der Flyer von VerbaAlpina, die ich in meiner Umgebung gefunden habe
Ich weiß es nicht mehr
Sonstige (spezifizieren)

[ Kako ste izvedeli za projekt VerbaAlpina?
Prek Twitterja
Od znanca
VerbaAlpina sem odkril/a po naključju med brskanjem po internetu
Zahvaljujoč letakom VerbaAlpine, ki sem jih našel v svoji okolici
Ne vem več
Razno (navedite) ]


Was hat Sie motiviert, sich an der Umfrage (am Crowdsourcing) zu beteiligen? (mehrere Werte auswählbar)
Ich möchte meinen Dialekt/meine Sprache schützen
Ich möchte, dass Antworten auch für meine Gemeinde erscheinen
Ich möchte zur wissenschaftlichen Kenntnis meiner Mundart beitragen
Mir gefällt der Wettbewerb zwischen den Dialekten und den Teilnehmern
Sonstige (Gründe beschreiben)

[ Kaj vas je spodbudilo k sodelovanju v anketi (crowdsourcingu)?  (izberete lahko več vrednosti)
Želim zaščititi svoje narečje/svoj jezik
Želim, da se odgovori pojavijo tudi za mojo občino
Rad bi prispeval k znanstvenemu znanju o svojem narečju
Všeč mi je tekmovanje med narečji in udeleženci
Razno (opišite razloge) ]


Zu den Wörtern, die Sie an VerbaAlpina gesendet haben... (mehrere Werte auswählbar)
Ich habe sie aus eigenem Wissen eingefügt
Ich habe jemanden um Hilfe gebeten
Ich kann mich nicht erinnern
Ich habe mir mit Mundart-Wörterbüchern geholfen
Sonstige (spezifizieren)

[ O besedah, ki ste jih poslali projektu VerbaAlpina... (izberete lahko več vrednosti)
Vnesel sem jih na podlagi lastnega znanja
Nekoga sem prosil za pomoč
Ne spomnim se več
Pomagal sem si z narečnimi slovarji
Razno (navedite) ]


Fanden Sie es interessant, am VerbaAlpina Crowdsourcing teilzunehmen? (1 = gar nicht; 5 = sehr)

[ Ali se vam je zdelo zanimivo sodelovati v VerbaAlpininem zbiranju podatkov (crowdsourcingu)? (1 = sploh ne; 5 = zelo) ]


Haben Sie VerbaAlpina weiterempfohlen?
Ja (in der nächsten Frage spezifizieren)
Nein

[ Ali ste VerbaAlpino priporočili drugim?
Da (navedite v naslednjem vprašanju)
Ne ]


Wenn ja, auf welche Weise? (mehrere Werte auswählbar)
Durch Teilen auf Facebook (Beitrag auf Profil oder Seiten/Gruppen)
Auf Instagram teilen (Post oder Story)
Auf Twitter teilen (tweet / repost)
Nach Stimme
Per E-Mail / Nachricht
Sonstige (spezifizieren)

[ Če da, na kakšen način? (izberete lahko več vrednosti)
Z deljenjem na Facebooku (objava na profilu ali straneh/skupinah)
Deljenje na Instagramu (objava ali story)
Deljenje na Twitterju (tweet / repost)
Po govoru
Po e-pošti/sporočilu
Razno (navedite) ]


Wie gut verständlich ist Ihrer Meinung nach die VerbaAlpina Crowdsourcing-Plattform? (1 = gar nicht verständlich; 5 = gut verständlich)

[ Kako enostavno je po vašem mnenju razumeti platformo za množično zbiranj podatkov (crowdsourcing) VerbaAlpine? (1 = sploh ni razumljivo; 5 = dobro razumljivo) ]


Wie wichtig ist für Sie ein Forschungsprojekt im Bereich der Dialekte? (1 = gar nicht; 5 = sehr)

[ Kako pomemben je za vas raziskovalni projekt na področju narečij? (1 = sploh ne; 5 = zelo) ]


Wie wichtig sind für Sie sprachbezogene kulturelle Aktivitäten? (1 = gar nicht; 5 = sehr)

[ Kako pomembne so za vas kulturne dejavnosti, povezane z jezikom? (1 = sploh ne; 5 = zelo) ]


Wie oft nehmen Sie an kulturellen Veranstaltungen (Tagungen, Folkloreveranstaltungen, Festivals, Informationsabende, Festumzüge usw.) in Ihrer Umgebung teil?
Immer
Oft
Selten
Nie

[ Kako pogosto se udeležujete pri kulturnih prireditvah (konference, folklorne prireditve, festivali, informativni večeri, praznovanja itd.) v vašem kraju?
Vedno
Pogosto
Redko
Nikoli ]


Sind Sie Mitglied in irgendwelchen kulturellen Vereinigungen (Volksgruppen, Kulturvereine, Naturschutzorganisationen usw.) in Ihrer Gegend?
Ja (in der nächsten Frage spezifizieren)
Nein

[ Ali ste član kakšnega kulturnega društva (narodne skupine, kulturna društva, naravovarstvene organizacije itd.) v vašem kraju?
Da (navedite v naslednjem vprašanju)
Ne ]


In / an welchen Verbänden sind Sie tätig / nehmen Sie teil? (kurz beschreiben)

[ V katerih društvih ste aktivni/ sodelujete? (na kratko opišite) ]


Werden Ihrer Meinung nach die Dialekte in einigen Jahrzehnten verschwinden?
Ja
Nein
Ich weiß es nicht
Ja, manche (spezifizieren welche Dialekte Ihrer Meinung nach verschwinden werden)

[ Ali bodo po vašem mnenju narečja v nekaj desetletjih izginila?
Da
Ne
Ne vem
Da, nekatera (navedite, katera narečja bodo po vašem mnenju izginila) ]


Wie wichtig ist es für Sie, dass Dialekte wissenschaftlich untersucht werden? (1 = gar nicht; 5 = sehr)

[ Kako pomembno se vam zdi znanstveno preučevanje narečij? (1 = sploh ne; 5 = zelo) ]


Sollten Dialekte in Ihrer Meinung in der Schule unterrichtet werden?
Ja
Nein

[ Ali mislite, da bi bilo treba narečja poučevati v šoli?
Da
Ne ]


Warum? (begründen Sie bitte Ihre Antwort in Kürze)

[ Zakaj? (na kratko obrazložite svoj odgovor) ]


Glauben Sie, dass die Dokumentation eines Dialekts wichtig ist, um sein Überleben zu sichern?
Ja
Nein
Ich weiß es nicht

[ Ali mislite, da je dokumentacija narečja pomembna za njegovo ohranitev?
Da
Ne
Ne vem ]


Wie wichtig ist Ihre lokale Mundart für Sie? (1 = gar nicht; 5 = sehr)

[ Kako pomembno je za vas lokalno narečje? (1 = sploh ne; 5 = zelo) ]


Wie würden Sie Ihre Mundart einordnen?  (mehrere Werte auswählbar)
Dialekt
Sprache
Varietät
Mundart
Ich weiß es nicht
Sonstige (spezifizieren)

[ Kako bi uvrstili svoje narečje?  (izberete lahko več vrednosti)
Dialekt
Jezik
Varieteta
Narečje
Ne vem
Razno (navedite) ]


Mit welchem Namen bezeichnen Sie Ihre Mundart? (Zum Beispiel: Schwäbisch, Badisch, Allgäuerisch, Klagenfurterisch usw.) *gerne slowenisch-passende Beispiele wählen*

[ S kakšnim imenom poimenujete svoje narečje? (Na primer: koroško, gorenjsko, štajersko, itd.) ]


Allgemeine Kommentare (unten können Sie Anmerkungen, Vorschläge und Bewertungen einfügen)

[ Splošni komentarji (spodaj lahko dodate pripombe, predloge in mnenja) ]


Weiter

[ Naprej ]


Fragebogen abschicken

[ Pošlji vprašalnik ]


Wir danken Ihnen sehr für Ihre Teilnahme und laden Sie ein, den Link zum Crowdsourcing (https://www.verba-alpina.gwi.uni-muenchen.de/en/?page_id=1741&db=211) mit möglichst vielen anderen Menschen zu teilen, damit alle alpinen Dialekte dokumentiert werden!

Für Fragen oder weitere Informationen stehen wir Ihnen gerne unter der folgenden Adresse zur Verfügung: verbaalpina@itg.uni-muenchen.de

[ Zahvaljujemo se vam za vaše sodelovanje in vas vabimo, da s čim več ljudmi delite link za množično zbiranje podatkov (crowdsourcing) (https://www.verba-alpina.gwi.uni-muenchen.de/en/?page_id=1741&db=211), da bodo dokumentirana vsa alpska narečja!

Če imate kakršna koli vprašanja ali potrebujete dodatne informacije, smo vam na razpolago pod naslednjim naslovom: verbaalpina@itg.uni-muenchen.de ]

VerbaAlpina – Aspekte der informatischen Konzeption und technischen Realisierung (Zitieren)

Stephan Lücke


(2963 Wörter)

Der folgende Vortrag wurde im Rahmen der Vorlesung "Einblicke in digitale sprachwissenschaftliche Forschungsprojekte" des BA-Studiengangs "Digital Humanities in den Sprachwissenschaften" am 23.05.2022 gehalten.

Vorwort

  • Allerdings: Fachwissenschaft und informatische Methoden sind in den Digital Humanities (DH) so eng miteinander verwoben, dass eine klare Trennung nur schwer möglich ist – Zwei Seiten einer Medaille:

Zwei Seiten einer Medaille: Sprachwissenschaft und Informationstechnik

  • Überschneidungen und Wiederholungen mit dem Vortrag von Frau Colcuc und Frau Mutter letzte Woche können daher nicht vollkommen ausgeschlossen werden
  • Fachwissenschaften und Informationstechnologie beeinflussen sich wechselseitig

Wechselseitige Beeinflussung von Fachwissenschaften und Informationstechnologie

Übersicht

  1. Kurze Wiederholung: Worum geht es bei VA?
  2. Die reine Technik
  3. Vorstellung weiterer Funktionsbereiche von VA: Interaktive Karte – LexiCon Alpinum – CrowdSourcing-Modul II: Zooniverse
  4. VA als vollständig digitales Projekt: VA und die Herausforderungen von Digitalisierung und Vernetzung

1. Wiederholung: Das Projekt VerbaAlpina

  • VA ein Projekt im Bereich der Geolinguistik: sprachliche Variation vor dem Hintergrund von Raum und Zeit
  • Im Mittelpunkt: Die Lexik – Welche Wörter werden im Alpenraum für ausgewählte Begriffe verwendet? Phonetik, Morphosyntax und Grammatik spielen konzeptionell keine Rolle (können zumindest teilweise auf Basis des von VA zusammengetragenen Materials untersucht werden)
  • Es geht um Dialektwörter, National- bzw. Standardsprachen spielen eine untergeordnete Rolle
  • Beschränkung auf Bezeichnungen für "typisch" alpine  Konzepte (Milch- und Almwirtschaft, Flora, Fauna, traditionelle Küche, Tourismus/Modernes Leben)
  • VA dokumentiert ausschließlich lexikalische Daten mit einem definierten Bezug zum Raum (Georeferenzierung; Gebrauch eines Wortes an einem ganz bestimmten Ort oder in einer ganz bestimmten Region)
  • Geographischer Rahmen: Die Grenze der Alpenkonvention
  • Sprache und außersprachliche Realität sind folgendermaßen aufeinander bezogen:
Bezeichnung KONZEPT (=BEGRIFF)
Butter     
  • Konvention: Konzepte werden in VERSALIEN, Bezeichnungen kursiv geschrieben ⇒ BUTTER vs. Butter
  • Bidirektionale Verknüpfung (semasiologisch: Bezeichnung ⇒ KONZEPT vs. onomasiologisch: KONZEPT ⇒ Bezeichnung)
  • Informatisch gesprochen: m:n-Beziehung: eine Bezeichnung kann mehrere Bedeutungen haben, für eine Sache/Konzept gibt es mehrere Bezeichnungen

  • Auf den ersten Blick ist diese Zuordnung sehr simpel. Sie erlangt jedoch große Komplexität in dem Moment, in dem man die Dimensionen des Raumes und der Zeit in dieses System einbezieht
  • Bezeichnungen und ihre Bedeutung variieren in Raum und Zeit. Regionale Bezeichnungsvariation am Beispiel von malga:
  • Regionale Verbreitung von Wörtern und ihren Bedeutungen kann sich im Lauf der Zeit verändern
  • Weitere Veränderung über die Zeit: Sprachwandel: lat. lac ⇒ ital. latte, frz. lait
  • Ergebnis: sehr komplexes, vierdimensionales, bewegliches Geflecht von Wörtern und ihren Bedeutungen
  • Grundschema ist folgende Zuordnung:
Bezeichnung Konzept Georeferenz Chronoreferenz Quelle
painch BUTTER Ardez (10.1399 46.8577) 1928-1940 AIS 1207, 7
Anke BUTTER Malters (8.2514 47.0124) 1962-2003 SDS V 179, LU24
...
  • Traditionell: Erschließung lexikalischen Material *entweder* durch Wörterbücher (semasiologischer Zugriff) *oder* durch Sprachatlanten (onomasiologischer Zugriff)
  • VerbaAlpina verbindet beide Zugriffsarten, ist Wörterbuch und Sprachatlas in einem
  • Die Daten von VA stammen aus:
    • Sprachatlanten,

AIS-Karte 1218 "Il siero del formaggio" (MOLKE; Navigais; vgl. VA-Karte; lita, leyto/u ) ⇒ letie (roa f.)). Der AIS präsentiert unmittelbare Äußerungen eines Sprechers in phonetischer Transkription

    • Wörterbüchern (nur solchen, die auch Informationen zur geographischen Verbreitung von Wörtern enthalten)

Eintrag Teie(n) im Schweizerdeutschen Idiotikon. GrMu. = Mutten, GrKl = Klosters, GrD = Davos, GrChur. = Churwalden. Das Idiotikon dokumentiert typisierte Belege, zeigt also keine unmittelbaren Äußerungen eines Sprechers

    • Crowdsourcing (⇒ Sammlung von aktuellen Daten über das Internet)
    • Partnerprojekte (z. B. ALD: Übernahme der Daten in Form eines SQL-Dumps)
  • Status der gesammelten Sprachdaten ist unterschiedlich:
    • Einzelbelege (konkrete Äußerung eines einzelnen Sprechers (auch: "Informant"; Beispiel AIS) vs.
    • morpholexikalische Typen (entspricht einem Lemma in einem Wörterbuch; Beispiel Idiotikon)
  • Typisierung: Einzelbelege müssen manuell "typisiert", also zu lexikalischen Lemmata zusammengefasst werden. VA nennt diese "morpholexikalische Typen", kurz: Morphtypen – Beispiel: phonetische Varianten des Morphtyps "tegia" (Morphtyp zur Bezeichnung u. a. der SENNHÜTTE [AIS 1192_1, CASCINA DI MONTAGNA]; insgesamt 26; DB-Abfrage:

    Exempla mit "###" markieren Fälle, in denen der Morphtyp als Teil eines längeren Ausdrucks verwendet wird):

tˈeːʥɑ
tˈeːɑ
tˈiːʥɑ
tˈiːzɑ
tˈiːdzɑ
tˈeːa
tˈeːjɑ
tˈeːj̆ɑ
tˈeːɑ###tˈeːɑ dɑ ˈalp
tˈeaɜ
tˈea
tˈeʤa
tˈeːaɑ˺
tˈeːaɜ
tiˈeʒa###tiˈeʒa da mont
teˈaθ
tˈej̆###tˈej̆ da la bˈoːʤɑ
tˈɛːza
tˈeʒɑ
tˈeːzɛ
tˈeːʥɑs͉###mˈidaː tˈeːʥɑs͉
te̞ˈaθ
Tegia###Tegia d'alp
Tegia
teggia
Tieja

  • Typisierungstool zur Erleichterung dieser Arbeit; de facto nicht automatisierbar

Das Typisierungstool von VerbaAlpina

  • Historische Tiefe durch Erfassung auch der Wortgeschichte
  • Für jeden Morpholexikalischen Typ werden nach Möglichkeit auch historische Vorläufer identifiziert und dokumentiert
  • Dabei gibt es grundsätzlich zwei Szenarien:
    • Entlehnung aus einer anderen Sprache
    • Entwicklung aus einer älteren Sprachstufe ("Etymon" – z. B. Latein ⇒ Italienisch, Französisch, Rätoromanisch, Rumänisch etc. ...)
  • Oft ist nicht sicher zu entscheiden, welches Szenario vorliegt
  • Daher hat VA den Begriff des "Basistyps" eingeführt: Er bezeichnet einfach eine Vorstufe eines morpholexikalischen Typen, vermeidet aber die Festlegung auf eine der beiden genannten Möglichkeiten
  • Beispiel: lat. salamandra als Vorstufe von ital. salamandra und deu. Salamander; die Zuweisung eines "Basistyps" zu einem Morpholexikalischen Typen stellt lediglich einen offenkundigen, grundsätzlichen Zusammenhang zwischen beiden fest, sagt aber nichts über die konkrete  Art  dieses  Zusammenhang  aus:

2. Die reine Technik

  • VA vollständig digital
  • Nur open source Technologie
  • fast ausschließlich Web-Technologie
  • WordPress als Content Management System (CMS)
  • MySQL-Datenbanken (eine für Kerndatenbestand, eine generische als WordPress-Backend)
  • Generierter Computercode überwiegend PHP, JavaScript, SQL, CSS
  • Infrastruktur bestehend aus Datenbank- und Webserver(n)
  • Betrieb der Infrastruktur durch die IT-Gruppe Geisteswissenschaften (ITG)
  • Hohe Verfügbarkeit der Dienste (sehr geringe Ausfallzeiten)
  • Professionelles Maintenance (Pflege der Serversoftware: regelmäßige Updates und Sicherheitspatches)
  • VA-Datenbank umfasste im Mai 2021 140 Tabellen, 18 Views, 25 Funktionen, 47 Prozeduren, 5 Trigger

3. Weitere Module von VA: Interaktive Karte – LexiCon Alpinum – API – CrowdSourcing-Modul II: Zooniverse

a) Interaktive online-Karte

  • zentrales Visualisierungsinstrument – Glanz- und Prunkstück von VA: Interaktive online-Karte
  • realisiert mit PHP, JavaScript, WebGL (Letzteres macht die Karte hochperformant [durch Verwendung des Prozessors auf der Graphikkarte]. Beispiel: Schnelles Zoomen nach Auswahl von Gemeindepolygonen europaweit ⇒ zigtausende von Einzelpunkten)
  • onomasiologische und semasiologische Kartierung (synoptische Kombination unterschiedlicher Perspektiven, die im Buchdruck nicht möglich war: Sprachatlas vs. Wörterbuch). Beispiel: Suche nach Butter vs. BUTTER (unterschiedliche Gruppierungsmöglichkeiten, bei Konzepten u. a. nach Morphtypen und nach Basistypen, bei Morphtypen nach Konzept oder Quelle)
  • Unterscheidung zwischen Background-Layer und Overlays
    • Unterschiedliche Backgroundlayer: aktuelle, elektronische Karten (z.B. Esri.WorldImagery, OpenTopo etc.)
    • Overlays: zum Teil historische, gescannte und georeferenzierte Karten (z. B. Mayr's Alpenkarte; zukünftig evtl. Karten zur Bodengüte, Geologie, Infrastruktur etc.; interessant auch: Verlauf der Baumgrenze)
    • Opazität der Overlays kann stufenlos eingestellt werden.
  • Qualitative vs. quantitative Kartierung:
    • Qualitative Kartierung: Geographische Verteilung von Merkmalsausprägungen auf dem Hintergrund des Netzes der politischen Gemeinden (z. B. Verbreitung der Belege für den Morphtypen "burro")
    • Quantitative Kartierung: Die Häufigkeit einer bestimmten Merkmalsausprägung wird für bestimmte regionale Einheiten berechnet (zur Auswahl stehen u. a.: Gemeindegrenzen, NUTS-3-Grenzen [~ deutschen Landkreisen], Sprachgebiete; Auswahl über den Menüpunkt "sprachbezogene Peripherie") – Beispiel: Verbreitung des Morphtypen 'Anke')
  • Kartensymbole klickbar -> Infofenster mit Detailinformationen, Normdaten und Verlinkungen (im Fall von Morphtypen: Angabe u. a. von Morphtyp, Basistyp, Quelle, bezeichnetem Konzept, ggf. nicht typisiertem Einzelbeleg)
  • SQL: Direkte Eingabe von SQL-Abfragen, z. B.: "finde alle Einzelbelege des morpholexikalischen Typs 'Butter', die mit einem 'P' (statt mit einem 'B') beginnen
  • Gerade bei quantifizierenden Darstellungen: Unterschiedliche Größe der Gemeindeflächen verzerrt Wahrnehmung ⇒ Hexagonale Abbildung der "räumlichen Einteilungen"
  • Möglichkeit, Karten zu generieren und zu speichern ("Synoptische Karten"; Beispiel: "Die Basistypen cellarium, baita, casearia als Substrat")
  • Möglichkeit, Karten zu teilen (Teilen-Link)
  • Erläuterung der Kartenfunktionen u. a. durch kleine Fragezeichen

b) Lexicon Alpinum

  • online-Demo
  • Textzentrierter Zugriff auf das Datenmaterial
  • Alphabetische Liste aller Morph- und Basistypen sowie aller Konzepte
  • Filterung der Gesamtliste nach Konzepten, Basis- oder Morphtypen durch Eingabe von "konzept" etc. in Suchfeld
  • Beispiel: Suche nach "Basistyp unguere" ⇒ Auswahl durch Anklicken ⇒ Übernahme in Ergebnisliste (ggf. Anzeige von Kommentar)
  • Belege in Ergebnisliste: Anzeige von VA-ID (Beispiel ungere: B567) – Link auf Kartierung – Zitierlink mit DOI (Kettensymbol)
  • Registersymbol "Daten": Verknüpfungen des ausgewählten Typs oder Konzepts mit anderen Inhalten im Datenbestand, gegliedert  (in Abhängigkeit vom ausgewählten Datum) nach Morpholexikalischen Typen (im Fall von Basistypen), Gemeinden und Konzepten ("Welche Konzepte sind mit "unguere" verbunden?)
  • Auswahl von einzelnen Konzepten oder Morph-/Basistypen durch Anklicken der Liste
  • Eingabefeld "Durchsuchen" führt eine Volltextsuche in den zuvor ausgewählten Items durch

c) API

  • VA bietet verschiedene Möglichkeit, auf seinen Datenbestand zuzugreifen:
  • öffentlich zugänglich: Interaktive Karte, Lexikon Alpinum
  • reserviert für offizielle Projektpartner von VA: Direktzugang zur VA-Datenbank über PhpMyAdmin oder Client-Programme
  • Die bisher genannten Zugangsweisen primär für Menschen ("User Interfaces", "Mensch-Maschine-Schnittstelle")
  • daneben: sog. API: „application programming interface“ – "Maschine-Maschine-Schnittstelle" "Anwendungsprogrammierschnittstelle" – ebenfalls öffentlich zugänglich
  • Dokumentation und Beispiele auf dem Webportal von VA veröffentlicht: https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=493&db=212&letter=A#138
  • VA-Daten können über die API in unterschiedlichen Formaten als Webseite oder in (z. B. csc-)Dateien heruntergeladen werden (auch von Menschen über einen Browser)
  • Beispiel: Die URL https://www.verba-alpina.gwi.uni-muenchen.de/?api=1&action=getName&id=S134468&version=182 liefert den Einzelbeleg S134468 in der Fassung der VA-Version 182 (= 1. Halbjahr 2018); Der Beleg stammt aus dem Sprachatlas Italiens und der Südschweiz (AIS): https://navigais-web.pd.istc.cnr.it/?map=1073&point=323 (Original im Atlas; Karte 1073 "SCHAFHIRTE", Informant 323 [Predazzo])
  • Dokumentation der API von VA

d) CrowdSourcing-Modul II: Zooniverse

  • Kernidee: Nachnutzung eines generischen Baukastens ⇒ Reduktion von Entwicklungsaufwand
  • Absicht/Zweck: Transkription von Sprachatlasdaten durch die "Crowd"
  • Zentrales Problem: Zuordnung von Text- oder Symboleintragungen auf Karten von Sprachatlanten zu Erhebungspunkten maschinell nicht operationalisierbar (Maschinen sind überfordert:
  • Problem jedoch speziell bei Sprachatlanten: Zuordnung von Schrift zu Erhebungspunkten:

    Attributionsaufgabe im Zooniverse-basierten Crowdsourcing-Tool von VerbaAlpina

    • Bilanz:
      • Nachnutzung der generischen Umgebung sehr aufwendig ⇒ Ursprüngliche Hoffnung nicht bestätigt
      • Transkriptionsaufgabe teils zu komplex für Crowder (Transkriptionssystem letztlich doch kompliziert)
      • Korrektur: Sinnvoll könnte die Beschränkung auf die Zuordnungsaufgabe sein (welcher Eintrag gehört zu welchem Punkt? Verzicht auf Transkription. Transkription könnte durch OCR erledigt werden)

    4. VA und die Herausforderungen der Virtualität

    • VerbaAlpina ist VOLLSTÄNDIG digital konzipiert
    • "digital" ist zu wenig! Mehrwert entsteht vor allem durch Vernetzung: Einsatz von Webtechnologie (u. a. ⇒ WordPress)
    • Vernetzung hat zwei Seiten! VA bindet externe Inhalte an die eigenen an und bietet umgekehrt externen Instanzen die Möglichkeit, die VA-Daten anzubinden. Wichtige Rolle kommt dabei sog. Normdaten zu (VA-Normaten: Identifikatoren für Morphtypen, Konzepte, Orte und Einzelbelege; von VA genutzte externe Normdaten: Wikidata-QIDs und LIDs, Geonames, ...)
    • Technologie wird multifunktional eingesetzt, für:
      • Datenerfassung/-sammlung
      • Datenanalyse (algorithmische/statistische Berechnungen des gesammelten Datenmaterials; z. B. lexikalische Variation bezogen auf bestimme KONZEPTE: Welche Konzepte werden mit besonders viel, welche mit besonders wenigen Morphtypen bezeichnet)
      • Monitoring/Überwachung (z. B. Live Statistik der Crowdsourcing-Aktivität)
      • Datenvisualisierung (im Wesentlichen Kartierung)
      • Publikation diskursiver Inhalte: Vorlesungen wie die vorliegende, Artikel/Beiträge (Ersatz für Publikation in Zeitschriften, Monographien und Sammelbänden; Beispiel: Krefeld, Thomas / Lücke, Stephan (2021): (Unsere) Prinzipien der virtuellen Geolinguistik [= Krefeld/Lücke 2021 ])
      • Organisation/Kommunikation (Protokolle der wöchentlichen Projekttreffen)
      • Dokumentation (Erläuterungen zu Methode und Technik)
    • VA verzichtet quasi vollständig auf Papier – alles ist elektronisch (blickt man auf die Geisteswissenschaften, ist das nicht selbstverständlich; breit gestreutes Kontinuum zwischen fast totaler Ablehnung [Computer/Digitalität nur als Werkzeug zur Erzeugung traditioneller Diskursformen wie Artikel und Monograpien] und maximaler und konsequenter Nutzung)
    • Aus konsequenter Nutzung der Digitalität resultieren (überwiegend) Vor-, aber auch Nachteile

    a) Vorteile von Digitalisierung und Vernetzung

      • Multimedialität (Text, Bild, Ton [!])
      • Hohe und niederschwellige Verfügbarkeit, auch abseits von Zentren wissenschaftlicher Forschung (Universitäten, wissenschaftliche Bibliotheken) in abgelegenen Regionen
      • Verknüpfbarkeit der Inhalte (Vernetzung), dadurch u. a. ...
        • Entstehung eines größeren Ganzen, das mehr ist als die Summe seiner Teile1
        • Möglichkeit direkter, unmittelbarer Referenzierung durch stabile/verlässliche Direct Links, Beispiel: Link auf VA-Karte, Link auf diskursive Inhalte in KiT (Ersatz für Angabe von Seiten im Paradigma des Buchdrucks)
        • Vernetzung nur sinnvoll, wenn feine Datengranulierung vorliegt (Beispiel Buch: ohne Seitenzahlen Referenzierung wertlos)
      • Multifunktionalität: Arbeitsinstrument (Sammlung und Verwaltung von Daten), Publikation, Kommunikation etc. (s. oben) – Konsequenz: fundamentale Änderung wissenschaftlicher Arbeitsweise (ehedem: Wissenschaftler zunächst isoliert im "Studiolo", sammelt Material, wertet aus, verfasst Text(e), korrespondiert brieflich mit Kollegen, beschränkter Kontakt mit "Publikum" (wissenschaftliche Community), Laien praktisch ausgeschlossen (Zugang zu wiss. Bibliotheken Voraussetzung), Abhängigkeit von Verlagen und Buchhandel  etc. ... – nunmehr: Forschungsarbeit von Anbeginn potentiell öffentlich, erleichterter Austausch, unmittelbares Feedback ⇒ schnelle Korrektur von Fehlern (zumindest theoretisch)
      • ...

    b) Nachteile:

    • "Flüchtigkeit" des Mediums mit zwei primären Konsequenzen: ...
      • Gefahr von physischem Datenverlust (anders als beim Buch)
      • "Instabilität" (Daten können willentlich vom Autor verändert werden ⇒ problematisch bei Zitaten (anders beim Buch: Titel, Auflage, Seitenzahl absolut stabil)
    • Abhängigkeit von personeller und maschineller Infrastruktur
    • Notwendigkeit unbefristeter Betreuung der technischen Komponenten
    • dauerhafte Finanzierung erforderlich, auch über Ende der Projektfinanzierung hinaus (Betriebskosten für personelle und maschinelle Infrastruktur; bei Buch nach Druck weitgehend abgeschlossen, außer Kosten für Bibliotheken)
    • Notwendigkeit technischen Know-Hows bei den Fachwissenschaftlern (Hürde für Bereitschaft zum Einsatz der DH!)
    • Gestiegene Verantwortung der "Autoren": Änderung oder Verlust beeinflusst und beschädigt ggf. das größere Ganze
    • wechselseitige Abhängigkeiten durch Vernetzung auf verschiedenen Ebenen:
      • inhaltlich/fachwissenschaftlich: Verknüpfung von Daten verlangt Schaffung von Standards (Beispiel Lexikographie: Einsatz von Normdaten und persistenten Identifikatoren zur eindeutigen Bezeichnung von Morphtypen)
      • technisch: Veränderungen von Frameworks und Diensten (Beispiel aus VA: anfänglicher Einsatz von Google Maps API für online-Kartierung der VA-Daten)
      • rechtlich: Änderung von Lizenzbedingungen bei Diensten, deren Angebot vom eigenen Projekt genutzt wird
    • Änderung des "mindsets" in der Wissenschaftscommunity erforderlich, u. a.:
      • Bereitschaft zur Aneignung von Know How
      • Konsequente Abkehr von den traditionellen Formen wissenschaftlicher Arbeit (PDF als Surrogat des Buchdrucks, PDFs sind von Nachteil, weil nur bedingt internettauglich und dadurch schwer vernetzbar und überwiegend mit diskursivem Inhalt; Unterscheidung zwischen "Forschungsdaten" und ... "normalen" [?] Daten – besser: strukturierte Daten vs. diskursive Daten; früher war die Unterscheidung sinnvoll, da z. B. naturwissenschaftliche Messdaten wegen ihrer Menge nicht gedruckt werden konnten)
    • Interoperabilität verlangt hohes Maß an feiner Datengranulierung (⇒ strukturierte Daten)
    • "Lebende Systeme" wie WebPortal von VA bedürfen regelmäßiger Codepflege (laufend maintenance, in größeren Abständen re-engineering)
    • aktuell noch: fehlende institutionelle Strukturen (wer sorgt für dauerhafte Bewahrung digitaler Inhalte? Wer übernimmt die Finanzierung) ⇒ Initiative "Nationale Forschungsdateninfrastruktur" (NFDI)

    c) Antworten von VerbaAlpina auf die Nachteile bzw. Herausforderungen der Digitalität

    • "Flüchtigkeit": Schaffung von Stabilität durch Versionierung (alle 6 Monate, jeweils zu Jahresmitte und -ende; Nomenklatur: 221 ⇒ Version von Mitte des Jahres 2022; 222 ⇒ Version vom Ende des Jahres 2022) – Beispiel: Zitat eines Methodologie-Eintrags:
    Lücke, S. (2020): s.v. “API”, in: VerbaAlpina-de 21/2 (Erstellt: 19/1, 
    letzte Änderung: 20/1), 
    Methodologie, 
    https://doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D493%26db%3D212%26letter%3DA%23138
    • Technische Umsetzung: Versionen werden erzeugt durch Anfertigung von Kopien der zentralen VA-Datenbank
    • Screenshot aus dem PMA-GUI: Versionen der VA-Datenbank

    • Betrieb der Infrastruktur durch eine weitgehend bestandsgesicherte Institution (ITG der LMU)
    • Erzeugung von hochgranularen strukturierten Daten (Erleichterung bzw. überhaupt erst Ermöglichung von zielgenauer Vernetzung)
    • Einsatz von stabilen Internet-Adressen (DOIs; setzen auch Sorgfalt und Umsicht voraus), auch für granulare Einzeldaten
    • Einsatz von kostenfreier open source Standardsoftware zur Reduzierung von Wartungsaufwand und Nachnutzbarkeit
    • Anwendung einer offenen Nutzungslizenz: CC BY-SA (essentiell für Nachnutzung der Daten durch Dritte)
    • Zusätzliche Absicherung des Datenbestands durch Übertragung in geeignete Repositorien der UB der LMU, u. a. "Discover" -
    • Detaillierte Dokumentation u. a. durch ...

    d) Bislang ungelöste Probleme von Digitalisierung und Vernetzung

    • ungelöstes (unlösbares?) Problem "lebender Systeme": dauerhafter Betrieb des Webportals kann nicht garantiert werden; Sourcecode des Webportals wird auf GitHub veröffentlicht, Hoffnung: zukünftiges "Nachbauen" des Portals mit dann verfügbaren technischen Mitteln; entscheidend sind Idee und Konzept)
    • Flächendeckende Akzeptanz
    • Klärung der institutionellen Zuständigkeiten

    Resumée: Digitalisierung in den Geisteswissenschaften eher eine – noch längst nicht abgeschlossene – Evolution als eine Revolution. 

     

    Ich danke für die Aufmerksamkeit!

    ***


    Appendix (optional): Transkription

    • Problem: Erfassung von Daten speziell aus Sprachatlanten

    • Dort verwendete Transkriptionssysteme ([Bibl:AIS]: Böhmer-Ascoli) zumindest teilweise nicht in Unicode kodiert:

    Die Unicode-Blöcke mit phonetischen Zeichen (Link)

    • Selbst wenn: Erfassung mit Standardtastaturen sehr umständlich und fehleranfällig, Lösung: sog. Betacode:

    Transkription "exotischer" Schriftzeichen mit einer deutschen Standardtastatur ("Betacode")

    • Kernidee übernommen vom Thesaurus Linguae Graecae (TLG) – Beispiel (TLG-Link [Login erforderlich]):

    Μῆνιν ἄειδε, θεά, Πηληϊάδεω Ἀχιλῆος,
    οὐλομένην, ἣ μυρί’ Ἀχαιοῖς ἄλγε’ ἔθηκεν,

             ⇓

    *MH=NIN A)/EIDE, QEA/, *PHLHI+A/DEW *)AXILH=OS,
    OU)LOME/NHN, H(\ MURI/' *)AXAIOI=S A)/LGE' E)/QHKEN,

    • Betacode: Entwickelt Ende der 1970er Jahre von David Woodly Packard für den TLG
    • Betacode ursprünglich nur für Altgriechisch, später auch für andere Schriftsysteme, z. B. Hebräisch (Link)
    • Übertragung in andere Schriftsysteme durch automatische Ersetzung auf Basis von Codepages. Beispiel aus dem AIS:

    Manuelle Erfassung in Betacode und automatische Umsetzung nach IPA

    • Potentielles Problem: Informationsverlust durch Inkongruenzen bezüglich abbildbarer phonetischer Granularität

    Zuordnungsversuch von Teuthonista-Graphemen in das IPA-Vokaltrapez

    • Einsatz von OCR grundsätzlich möglich; Beispiel: Zuweisung der HTML-Entity θ zum griechischen Buchstaben Theta:

    Dialogfeld des kommerziellen OCR-Programms Abbyy Finereader. Zuweisung des Theta zur HTML-Entity θ (03B8 ist der entsprechende Unicode Codepoint)

    Dialogfeld von Abbyy Finereader mit Übetragung eines griechischen Texts in HTML-Entities

    • Analog zum o. a. OCR-Verfahren könnten auch phonetische Schriftzeichen der Sprachatlanten automatisch in ASCII-Zeichenfolgen umgesetzt werden

    Übertragung eines [Bibl:AIS]-Lauts in Betacode mittels OCR (Theorie)

    FineReader-Patterns für OCR von AIS-Zeichen (Filip Hristov)


    1. Diese Vorstellung wird gemeinhin auf Aristoteles zurückgeführt. Exakt so hat er es nicht formuliert, den Gedanken kann man aber u. a. aus Metaphysik VIII 6, 1 (1045a) herauslesen, wo es heißt: “Von allem nämlich, was aus mehreren Teilen besteht und aufs Ganze gesehen nicht nur wie ein ungeordneter Haufen ist, sondern etwas Ganzes jenseits der Einzelteile darstellt, gibt es ein Verbindendes. Denn auch in den menschlichen Körpern wird die integrale Gesamtheit entweder durch ein Gelenk oder durch eine kohesive Substanz oder durch etwas anderes derartiges erzeugt.” (trad. Stephan Lücke)  


    Bibliographie

    • AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
    • Idiotikon = (1881 ff.): Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch, Basel. Link
    • Krefeld/Lücke 2021 = Krefeld, Thomas / Lücke, Stephan (2021): (Unsere) Prinzipien der virtuellen Geolinguistik. Link
    • SDS = Baumgartner, Heinrich/ Handschuh, Doris/ Hotzenköcherle, Rudolf (1962-2003): Sprachatlas der Deutschen Schweiz, Bern, vol. 1-9, Francke

    Neues von den Sprach- und Sachatlanten – anlässlich des Atlas des Patois Valdôtains (APV/1) (Zitieren)

    Thomas Krefeld


    (3819 Wörter)

    Favre, Saverio / Raimondi, Gianmario  (eds.), Atlas des Patois Valdôtains. APV/1 – Le lait et les activités laitières, Arvier, Le Château, 2020, 112 Karten, 241 p.

    1. Der geolinguistische Forschungshorizont

    Die Geolinguistik – um den zu engen Ausdruck Dialektologie zu vermeiden – hat in der Geschichte der Sprachwissenschaft eine überaus wichtige, von manchen stark unterschätze Rolle gespielt. Das gilt nicht nur im Hinblick auf ihre ganz spezifischen Produkte – in erster Linie Lexika und Atlanten – sondern in ganz besonderem Maße für die Entwicklung und Reflexion grundlegender Methodologien, aus denen die Produkte hervorgehen konnten. So lässt sich der Horizont der geolinguistischen  Forschungstraditionen mit den im Folgenden genannten ‘Landmarken’ und einigen zugehörigen Pionierarbeiten abstecken, an denen sich nicht selten dann auch andere sprachwissenschaftliche Subdisziplinen orientierten.

    1.1. Die Anfänge der Dialektologie stehen zu Beginn des 19. Jahrhunderts im Zeichen der Lexikographie: Mit nur geringer Differenz erscheinen der  Vocabolario milanese-italiano von Francesco Cherubini (1814) das Bayerische Wörterbuch von Johann Andreas Schmeller (1827-1837) und im Unterschied zur bereits etablierten Lexikographie liegen diesen beiden wichtigen Referenzwörterbüchern die Erhebungen gesprochener Daten zu Grunde. Damit stellten sich den Autoren bereits alle einschlägigen Fragen der Selektion und Repräsentativität der Informanten. Die historisch-vergleichende Sprachwissenschaft, die im 19. Jahrhundert zum dominanten  Forschungsparadigma avancierte, verstand sich dagegen philologisch und arbeitete auf der Grundlage möglichst alter, schriftlich überlieferter Texte.

    1.2. Der Anspruch auf ethnographische Kontextualisierung wird im Titel von Weigand 1892 explizit erhoben; inhaltlich liegt er identischer Weise aber bereits in Weigand 1888 vor. Entschieden in den Vordergrund gerückt wird die Ethnographie in Wagner 1921 und mit den systematischen Erhebungen des AIS (verstärkt seit 1920) wird die kombinierte Sach- und Sprachforschung zum festen dialektologischen Paradigma, in dem die Semasiologie und die Onomasiologie – ganz im Unterschied zum ALF – mit derselben Sorgfalt differenziert dokumentiert werden: Die alltagsweltliche Kontextualisierung der Sprachdaten gilt hier als unumgänglich. Kaum Berücksichtigung fand die Ethnographie dagegen in weiten Teilen der germanistischen Dialektologie, die der Tradition von Wenker verhaftet blieb – der SDS und der VALTS sind in dieser Hinsicht untypisch, da sie den romanistischen Atlanten näherstehen.

    1.3. Mit dem Intstrument des Fragebuchs konstruierten die Sprachatlanten (seit dem ALF) einen onomasiologischen Hintergrund, auf den sämtliche Sprachdaten bezogen werden konnten; so wurde systematische Vergleichbarkeit zwischen den Aufnahmepunkten ermöglicht; ein meist übersehener, innovativer Vorläufer war Francesco Cherubini 1814, der bei den Erhebungen für sein Wörterbuch die außerordentlich detaillierten Illustrationen aus den Abbildungsbänden (Planches) der Encyclopédie von D'Alembert und Diderot als Stimuli benützte:

    „chiamai spesso a consulta varj artisti; e mostrando loro sulle tavole dell’Enciclopédie i varj utensili dell’arte loro, almeno dei principali fra questi mi feci dire da essi i nomi vernacoli; ed io quindi coll’ajuto de’ termini francesi usati dall’Enciclopedia stessa cercai e rinvenni per la maggior parte gli equivalenti toscani.“ (Cherubini 1814, XIII, Anm.)

    1.4. Zum Netz des AIS gehören neben romanischen Aufnahmeorten auch einige albanische und griechische Punkte, so dass Sprachkontaktszenarien erfasst werden. Die allermeisten Sprachatlanten haben sich dieses wichtige Prinzip jedoch selbst dann nicht zu eigen gemacht, wenn  ihre Untersuchungsgebiete sich traditionell durch Mehrsprachigkeit auszeichnen; immerhin werden im ALS auch Siculoalbaner (Arberësh) und im AsiCa Sprecher im extraterritorialen (post)migratorischen Kontext berücksichtigt.

    1.5. Die Systemlinguistik und formal-universalistisch ausgerichtete Ansätze, die im 20. Jahrhundert im Vordergrund standen, waren nicht per se an der Variation der sprachlichen Einheiten interessiert und benötigten daher keine sehr umfassenden Korpora. Außerdem gilt der Bezug auf die außersprachliche, kulturell geprägte Realität für alle diejenigen als irrelevant, die an eine Isolierbarkeit sprachlicher Strukturen im Sinne einer ‘internen’ Sprachwissenschaft bzw. Sprachgeschichtsschreibung glauben. Dadurch geriet die Dialektologie – in der Außenwahrnehmung – in einen klaren Gegensatz zu diesen oft als prestigereicher angesehenen sprachwissenschaftlichen Subdisziplinen. Andererseits entstand mit zunehmend umfangreichen Datenbeständen ein schärferes Bewusstsein der multidimensionalen Markiertheit sprachlicher Varianten, das erstmals im ADDU, dann im ALS und im MRhSA zu einer komplexeren Modellierung des sprachlichen Raums führte.

    1.6. Die Relativierung systemlinguistischer und exklusiv ‘interner’ Konzeptionen stand in engem Zusammenhang mit der methodologischen Neubewertung des individuellen Sprechers und seines vorwissenschaftlichen Sprachwissens; so entstand komplementär eine perzeptive Dialektologie (vgl. Preston 1982 und Postlep 2010), deren Tests einen Zugang zur Kognition der Variation (vgl. Krefeld/Pustka erscheint) vermitteln.

    1.7. Um der Allgegenwart sprachräumlicher Variation zu begegnen, entwickelte die Geolinguistik ein emphatisches Verhältnis zur Empirie im Allgemeinen und zum mündlich elizitierten Einzeldatum im Besonderen. Es war daher selbstverständlich sehr früh digitale Techniken zu nutzen; Pionierarbeit leistete in der Romanistik der ALD.

    Der skizzierte geolinguistische Forschungshorizont lässt sich nun wie folgt schematisieren:

    Der geolinguistische Forschungshorizont mit einigen Pionieren

    Die zuletzt genannte Digitalisierung eröffnet allerdings vielfältige Optionen und erfordert eine Spezifizierung, denn der systematische Einsatz von Web-Technologie hat fundamental andere Rahmenbedingungen für die Wissenschaftskommunikation hervorgebracht:

    • Durch die Einbindung von Audiofiles können Daten gesprochener Sprache medial authentisch wiedergegeben werden (vgl. ALD, AdA, AsiCa u.a.); so können auch reine Audio-Archive allgemein zugänglich gemacht werden (vgl. exemplarisch das toskanische Gra.fo);
    • die Erhebungen selbst können mittels  Crowdsourcing auf Forschungsplattformen bewerkstelligt werden (vgl. AdA, ALIQUOT, VerbaAlpina u.a.);
    • auch große Datenmangen lassen sich auf der Basis von Datenbanken analysieren, kartieren und in anderer Weise visualisieren (vgl. ALD und als Vorläufer ALG);
    • die Onomasiologie wird mittels Normdaten auf eine radikal sprachunabhängige und (im informationstechnischen Sinn) ontologische Basis gestellt (vgl. VerbaAlpina);
    • Datenbestände einzelner Projekte lassen sich (auch noch im Nachhinein) aggregieren und   und mit den Beständen anderer Projekte großräumig verknüpfen (vgl. VerbaAlpina).

    Schematisch ergibt sich sich damit für die web-basierte Geolinguistik der folgende virtuelle Horizont:

    Horizont der web-basierten Geolinguistik

    2. Konzeption

    Selbstverständlich, möchte man sagen, entsprechen die aktuellen geolinguistischen Projekte nicht allen Anforderungen gleichermaßen; vielmehr bewegen sie sich in der Regel in einem verengten Horizont. Im Fall des APV/1 wird er durch die Bereiche 1.1.-1.4. begrenzt, mit einem ganz klaren Fokus auf 1.2: In dieser ethnographischen Hinsicht wurden zweifellos neue Maßstäbe gesetzt. In 112 thematischen Artikel werden die folgenden vier Gebieten behandelt: La traite (Kap. 1-19), Entre l’étable, la cave et la fruitière (Kap. 20- 48), Le beurre (Kap. 49-73), Le sérac et les produits dérivés des petits-laits (Kap, 74-112) (Link). Zu Grunde lag das Fragebuch von Gaston Tuaillon, das auch für den ALJA und den ALEPO verwandt wurde (10). Das Ortsnetz besteht aus 22 Punkten, von denen jeweils 2 in angrenzenden Gegenden Frankreichs, des Piemont und im Wallis liegen. Befragt wurden pro Ort mehrere Informanten, aber biographische Details erfährt man nicht. 

    Sehr überzeugend sind die Anlage des gesamten Bandes (mit sehr differenzierten lexikologischen Indizes) sowie die Gestaltung der einzelnen Kapitel, in denen systematisch Kartographie und sprachwissenschaftlicher Kommentar kombiniert werden. Im Zentrum stehen jeweils eine analytische Karte und ein Text, der die erhobenen Belege typisiert und lexikologisch, d.h. phonetisch, semantisch, onomasiologisch und etymologisch analysiert. Womöglich wird der jeweilige Typ im Kontext kurzer Ethnotexte belegt, die bei der Datenerhebung mit den Informanten aufgenommen wurden. Es wäre erfreulich, wenn sich diese, in der italienischen Dialektlexikographie seit längerem bewährte Dokumentationstechnik (vgl. exemplarisch Sottile 2002) grundsätzlich als Standard etablieren würde. Die sachliche Beschreibung wird durch Zeichnungen und Fotos unterstützt. Weiterhin wird die dokumentierte lexikalische und phonetische Variation durch kleinere, aber sehr prägnante synthetische Karten  visualisiert. Das Fehlen eines vergleichbaren Apparats macht die meisten bislang publizierten Sprachatlanten zu Instrumenten des Wissenschaftlers, obwohl der Kreis der Interessenten in den Sprechergemeinschaften ganz eindeutig darüber hinaus geht. Begrüßenswert war auch die Entscheidung die ursprünglich vorgesehene Transkription nach dem System des ALF bzw.  von Rousselot durch eine IPA-Transkription zu ersetzen; schließlich  freut sich der Leser während der Lektüre über das lose eingelegte Faltblatt mit vollen Ortsnamen, den Siglen, Abkürzungen und dem Transkriptionssystem. Alles wurde unter der Prämisse ein gedrucktes Buch zu publizieren durch und durch vernünftig eingerichtet.

    Anlässlich der Buchpräsentation wurde jedoch explizit und nachdrücklich der unbedingt vorbildliche Anspruch formuliert auch für Laien und insbesondere für die Sprecher*innen selbst verstehbar zu sein:

    «I 112 articoli principali che compongono il volume esplorano le “parole” e le “cose” di un settore fortemente caratterizzante la cultura materiale alpina tradizionale: la filiera del latte. Lo fanno tenendo certamente presente la tradizione scientifica consolidata della geolinguistica delle lingue romanze, ma con una particolare attenzione anche alla “divulgazione” dei contenuti scientifici, al loro riutilizzo come tema di interesse nella scuola valdostana, alla loro “restituzione” alla comunità locale (patoisante e non) che ne è, a ben vedere, la prima proprietaria." (Quelle)

    Gemessen an dieser Absicht ist nun die grundsätzliche Entscheidung  für eine gedruckte, buchförmige Publikation nur schwer nachvollziehbar. Denn einer der unbestreitbaren Vorzüge der Web-Publikation besteht ja gerade in ihrer vollkommen uneingeschränkten Verfügbarkeit für sehr unterschiedliche Nutzergruppen.##

    - von den anderen Optionen, wie z.B. der Möglichkeit auch Audiomaterial einzubinden, den Datenbestand kontinuierlich zu erweitern und/oder zu verknüpfen einmal ganz abgesehen.

    3. Diskussion

    Der zugänglich gemachte lexikalische Bestand ist zwar noch recht übersichtlich, aber allemal hinreichend, um das Aostatal als Schnittpunkt vollkommen unterschiedlicher Wortareale zu profilieren. Sie ließen sich auf ein Kontinuum abbilden, dass von ganz lokaler Verbreitung in einem womöglich kleinen Teil des Aostatals (z.B. guieppé ‘melken’, Kap. 1-8) bis zu weiträumiger Verbreitung reicht (z.B. lat. FORMATICU, Kap. 1-82) . Nach Maßgabe ihrer sprachgeschichtlichen Transparenz repräsentieren die erfassten Worttypen jeweils die raumprägenden historischen Konstellationen und leisten einen substantiellen Beitrag zur Stratigraphie des Valdostanischen und mittelbar des gesamten Alpenraums, da sie nicht selten über die Grenzen der Sprachfamilien hinweg reichen. Einige stratigraphische Leitwörter des APV/1 sollen m Folgenden skizziert werden.

    3.1 Das lateinisch-romanische Stratum

    Die Schlüsselrolle spielt dabei das lateinisch-romanische Stratum, da es als einziges die heute romanischen, germanischen (d.h. deutschsprachen) und slawischen (d.h. slowenischsprachigen) Teilgebiete verklammert: Manche lateinische Typen haben sich (mehr oder weniger weit) einerseits in den heute romanischsprachigen Regionen erhalten und wurden andererseits in den nachmalig germanisierten bzw. slawisierten Regionen als Substratwörter entlehnt. In analoger Weise hat das lateinisch-romanische Stratum darüber hinaus vorlateinische Substratwörter an die drei Sprachfamilien vermittelt. Ein prototypisches Alpenwort des lateinisch-romanischen Stratums ist lat. excocta, das nominalisierte Partizip Perfekt des Verbs excoquere ‘herauskochen’. Es bezeichnet im APV-Gebiet gewissermaßen ein finales Produkt der Milchverarbeitung, nämlich die Restflüssigkeit (valdost. écouette), die nach der zweiten Gerinnung ('Scheidung') bei der Herstellung der ricotta (alem. Ziger)  übrigbleibt (Kap. 1-100). Zum sachlichen Verständnis ist es angebracht, die Milchverarbeitung sehr stark vereinfacht zu schematisieren:  Die Vollmilch wird entweder entrahmt oder zur Gerinnung gebracht; diese erste Gerinnung erlaubt die Trennung von Frischkäse (Kasein und Fett) und flüssiger Molke; aus der Molke wird dann durch eine zweite Gerinnung bei starker Erhitzung ricotta (Albumin und sehr geringes Restfett) gewonnen; die verbleibende Flüssigkeit enthält praktisch kein Eiweiß und kein Fett mehr. Traditionell gewinnt man aus ihr das saure Gerinnungsmittel für die Ricottaherstellung.   

    MILCH → entrahmen RAHM schlagen FESTSTOFFE → BUTTER
    FLÜSSIGKEIT → BUTTERMILCH
    MAGERMILCH gerinnen lassen FESTSTOFFE →  MAGERKÄSE
    FLÜSSIGKEIT
    → erwärmen,
    gerinnen lassen,
    zerkleinern
    = 1. Scheidung
    FESTSTOFFE frische Käsemasse,
    formen, reifen lassen
    → FETTKÄSE
    FLÜSSIGKEIT stark erhitzen,
    gerinnen lassen,
    zerkleinern
    = 2. Scheidung
    FESTSTOFFE ita. ricotta, fra. sérac
    valdost. brossa
    FLÜSSIGKEIT

    Sowohl die Flüssigkeit als auch die Feststoffe (ricotta und brossa) werden also buchstäblich ’herausgekocht‘; deshalb ist es nicht überraschend, dass Kognaten von excocta in anderen Alpendialekten auch die Feststoffe bezeichnen. Je nach Gegend stehen sie aber auch noch für weitere Produkte der Milchverarbeitung, die – wie die vorhergehende Skizze zeigt – alle in metonymischer Relation zu einander stehen (Karte 1 – im Anhang – zeigt die APV/1-Belege im alpinen Kontext). 

     

    #hier Karte 1 excocta##

    interaktive Originalkarte|https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=133&db=xxx&tk=3488&layer=4

    Das semantische Spektrum und die Verbreitung zeigen, dass lat. EXCOCTA zum ethnolinguistischen Grundbestand der panalpinen Terminologie gehört.

    3.2 Das vorlateinische Substrat

    Mutmaßliche Substratwörter sind byetsé 'melken' (< gallisch blĭgicare, Kap. 1-8), das auch im Alemannischen weit verbreitet ist (vgl. blĭggen, Idiotikon, 5, 45) oder brossa ‘Eiweißteilchen, die bei Erhitzen der Molke aufsteigen’ ( < gallisch *brottiare, Kap. 1-76 E).

    #vgl. Karte 2 im Anhang: Verbreitung des Typs lat. *BROTTIARE (interaktive Originalkarte unter https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=133&db=xxx&tk=3490&layer=4 ) Bilder)#

    Der Typ brossa ist auch über die Westalpen hinaus im Okzitanischen und Korsischen verbreitet (vgl. südfranz./prov. brousse, korsisch brocciu usw.) Nach Korsika ist er aber wohl mit den westligurischen Siedlern gekommen. In Westligurien ist er seit dem 13. Jahrhundert belegt, wie die folgenden Beispiele1 zeigen. Man beachte, dass die latinisierten Formen dort stets in Verbindung und offenkundig im Kontrast zu Bezeichnungen von KÄSE stehen, der entweder als caseus oder mir einer ebenfalls typisch westalpinen Variante als fructus bzw. frux bezeichnet wird:

    • caseum vel brucium; caseos vel bruceum (Cosio, 1297);
    • caseum, brusum vel carnes salsas (Sanremo 1453);
    • fruges, ova, pissizorias, brucium, perdices, polagium (Albenga 1350);
    • fruges, ova, pissizorias, brocium, perdices, polagium (Albenga 1350);
    • aliquos fructus seu fruges, presinsoriam, bruzium, perdices, polagium (Albenga 1519);
    • rubos quatuor companagii, videlicet bruzii et cazeorum (Albenga 1544)
    • obsonium, bruceum et caseus et alie res que venduntur ad minutum (Triora 1592).

    Auch im Gebiet des APV bezeichnen Kognaten von fructus und Ableitungen wie fruitière, fruiterie kollektiv die Produktion der almwirtschaftlichen Milchverarbeitung (Kap. 1-112; vgl. auch TLFi s.v. fruitier). Einen Eindruck der Verbreitung gibt die folgende Karte (ohne die APV/1-Belege):  

    #vgl. Karte 3 im Anhang: Verbreitung des Typs lat. *BROTTIARE (interaktive Originalkarte unter https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=133&db=xxx&tk=3490&layer=4 ) Bilder)#

    3.3 Das germanische Superstrat

    Ein prototypisches Superstratwort ist valdostanisch brela, bzw. der Diminutiv  brelon, (Kap. 1-9) ‘einbeiniger/dreibeiniger Melkschemel’.  Zu Recht wird u.a. auf FEW XV/1, 272 verwiesen, wo der Typ auf ein rekonstruiertes got. *bridilô zurückgeführt wird (und nicht auf mhd. brëtel ‘kleines Brett’, wie das Lemma des FEW in etwas unglücklicher Weise suggeriert). Der Typ entspricht dem ita. predella ‘Fußbänkchen, Schemel’, das in Italien  bis in die Toskana weitverbreitet ist (vgl. TLIO, s.v. predella (link); dieser Typ wird wegen des stimmlosen Anlaut [pr-] jedoch im LEI und im DELI als langobardische Entlehnung gedeutet. Über das Aostatal hinaus scheint er jedoch im Frankoprovenzalisch und in den sich anschließenden fr. Dialekten nicht verbreitet zu sein. Auch in den alemannischen und bairischen Mundarten finden sich keine Entsprechungen; deu. Schemel führt ja seinerseits einen lat.-romanischen Diminutiv von lat. scamnum (> ita. scanno) fort und keine germanische Wurzel (eine Parallelform zu Schemel ist ita. sgabello).

    #vgl. Karte 4  *bridilô im Anhang#

    Nicht als Germanismus geführt wird dagegen bεt 'Kolostrum': «l'étymon est controversé, mais sans doute à relier avec les formes anciennes ou régionales comme beter ‘se figer, se coaguler’ et béton ‘premier lait’ (cf. GPSR II, 298b, FEW I, 345 *BETTARE et TLFi béton. Der zitierte FEW-Artikel ist jedoch ein wenig unentschieden: Er fragt am Ende «Woher stammt *bettare?» und gibt gleichzeitig den Hinweis «Zur etymologie vgl. *BEOST». Im Hinblick auf das valdostanische und frankoprovenzalische bεt läge es nun semantisch und morphologisch viel näher, direkte Herkunft von altniederfränkisch *beost (vgl. deu. Biest(milch)) link anzunehmen; dieser Typ ist in der östlichen Galloromania vom Frankoprov. bis ins Wallonische sowie im gesamten Süddeutschen Raum verbreitet. Er fehlt dagegen östlich vom Aostatal im romanischen Alpengebiet, so dass man an eine Superstratentlehnung aus merowingischer Zeit denkt, denn das Aostatal und die Westalpen gehörten seit 575 zum Merowinger Reich, während der Rest Oberitaliens langobardisch blieb (Link).

    #vgl. Karte 5 im Anhang *beost#

    3.4 Die französische Dachsprache

    Der Typ bidongroßer, zylindrischer Milcheimer aus Blech, mit Deckel’ (Kap. 1-38) zeigt weiterhin, dass sich auch rezente Strata wie die fra. Dachsprache niedergeschlagen haben; er ist übrigens auch  im schweizerischen Wallis und dort – über das Frankoprovenzalische hinaus – in alemannischen Walsermundarten verbreitet (vgl. SDS VII, 4, 1). Der Kommentar beschreibt diesen Typ als «dérivé du germanisme nordique de filière galloromane (normande, peut-être, e d’ici dans le français central ; cf. FEW XV/1, 104)  BIĐA» (Kap. 1-38). Das mag für den etymologischen Ursprung stimmen, obwohl der Trésor de la langue française Vorbehalte anmeldet und von «orig[ine] obs[ure]» spricht (Link). Entscheidend ist jedoch, dass der Typ auf dialektaler Ebene keinerlei Affinität zum Frankoprovenzalischen oder mindestens zum Ostfranzösischen aufweist; das geht aus den Belegen im (FEW 15/1, 103 f.link) sehr klar hervor. Das Wort ist deshalb sicherlich ganz unabhängig von einer eventuellen germanischen Herkunft über die französische Dachsprache verbreitet worden. Anstatt von einem ‘Germanismus’ (wie im APV/1) sollte von einem Französismus geredet werden.

    Fazit

    Es versteht sich von selbst, dass man – wie in den diskutierten Beispielen angedeutet – in lexikologischer Hinsicht, speziell im Hinblick auf die Etymologie gelegentlich anderer Meinung sein kann. Das ist kein Anlass zur Kritik, denn eindeutig ‘wahre’ oder ‘falsche’ Ansätze sind häufig, insbesondere im Fall der Substratwörter und anderer Entlehnungen ohnehin nicht zu erwarten. Mindestens so wichtig wie die Entscheidung für eine bestimmte Etymologie ist es daher die konkurrierenden Vorschläge zu resümieren; das leisten die Kommentare des APV/1 in übersichtlicher und sehr nützlicher Weise. Man darf also sehr gespannt sein auf die Fortsetzung des Unternehmens.

    in Biblio aufnehmen:

    Krefeld, T.: s.v. “Wissenschaftskommunikation im Web”, in: VerbaAlpina-de 20/2 (Erstellt: 16/1, letzte Änderung: 19/1), Methodologie, https://doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D493%26db%3D202%26letter%3DW%2362

    Lücke, S.: s.v. “Normdaten”, in: VerbaAlpina-de 20/2 (Erstellt: 18/2, letzte Änderung: 19/2), Methodologie, https://doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D493%26db%3D202%26letter%3DN%23114

    Cartodialect (imag.fr)
    https://www.atlante-aliquot.de/index.php

    ############

    cf. ALF 129b bête, s + t frpro scempiamento della s ,

    prob. da separare da *bettare 'coagulare' (FEW 1, 345) per motivi geoling. e semantici; il collegamento dei due tipi è poco chiaro  link

     

    Aber  Dachspürachen#aufzählung#

    #Schluss#??#

    #Diese Strata, die in den Einzelkommentare aufscheinen, hätten etwas eindeutiger identifiziert und etikettiert werden. ###ident Eine kritische Bemerkung verdient allerdings der Umgang mit dem Ausdruck germanique [germ.], denn darunter werden Konstellationen zusammengefasst die stratigraphisch sehr unterschiedlich zu beurteilen sind.

    Hier einige Beispiele:

    (1) Ein wird im Westen des APV-Untersuchungsgebiets mit dem T

     

    : "1 Piccola pedana con funzione di appoggiapiedi o di sgabello." significato 'sgabello' corrisponde più o meno, distribuzion toscana e bologn.

    quindi: non si tratta di un germ. local; in zona tedecosfono lo sgabello viene mai designato dal tipo Brett ##VA????##, anzi in ted. Schemel e un prestito lat. dim. di scamnum *scamillus Kluge 800

      

    #?#, wird jedoch der Wortgeschichte vermutlich nicht gerecht

    , pare essere un francesismo recente, perchésenza parallele nei dintorni##??## niente di francoprov o alpino, diffuso dalla Normandie, dal XVII secolo in poi, attestato solo in islandese antico link

    ??solo per recipienti di latta, quindi moderni?? il recipiente classico essendo di legno

    fuorviante parlare di "germ. BIĐA" (419, fra. bidon)

     

    (3)

    ###

     

    Allenfalls bestimmte   , die wortgeschichtlichen darf man wird man auf diesem Gebiet ohnehin nicht wrtaen   wrde, mit

    Im entrum ; sie nimmt eine in der Tradition der Sprachatlanten eher periphere

    ganz eindeutig ein Man in abe die umDer Horizont

    Im Hinblick auf die Punkte

    mit ihrer kulturellen und idilektalen  haben r    in dem sie stand und steht .

    22 Orte, davon 2 in F,  2 in Piemont und 2 im Wallis

    "Pour chaque point d'enquête, les réponses proviennent d'un nombre variable de témoins «qualifiés», choisis parmi les patoisants locaux." (10)

    Ein Profil der Informanten wurde nicht publiziert

    112 thematisch Artikel, die nach den folgenden vier Gebieten geordnet sind: La traite (1-19), Entre l’étable, la cave et la fruitière (20- 48), Le beurre (49-73), Le sérac et les produits dérivés des petits-laits (74-112) (Link)

    1-111 le cellier a fromages s. 201 f.

    crypta (https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=202&tk=3304)

    angegeben ist www.patoisvda.it. = tot

    https://www.patoisvda.org/atlas-patois-valdotains/

    Reste vom Voratrag in Aosta:

    ###fine######

    Alpina  alpine di alcuni lessotipi.l'esistenza  *excocta / cocta aber nicht für molke = petit-lait du fromage 1-100

    cf. mappa di VerbaAlpina SIERO DI LATTE Link

    cioè sostratico nelle zone tedescofona e slovenofona

    KÄSEKELLER: Typ le cellier à fromages  cellarium
    1-111
    ZIGER / le sérac
    1-74

    MOLKE nach der zweiten Scheidung le petit-lait résiduaire (du sérac)
    1-81

    *excocta, cocta etc.

    Mapp VA (Link)

    ,  sembra essere per niente

     

    il signifin un singolo paese – anche     derivato diminutivo d (link)

    situlus??

    AUFSTEIGENDE EIWEISSTEILCHEN DIE BEI ERHITZEN DER MOLKE AUFSTEIGEN NACH DER ZWEITEN SCHEIDUNG

    link

    mappa di VA *BROTTIARE link

    --> Korsika brocciu

    bletsé MUNGERE, mappa di VA *bligicare #eher alpino occidentale

    #Area fr#

    I cosiddetti 'germanismi'

    L'APV/1 comprende aluni elementi di origine germanica; questo termine generico è però fuorviante, perché essi aprono epoche e costellazioni di contatto molto diversi.

     

    bletsé MUNGERE, mappa di VA *bligicare #eher alpino occidentale

    bletsé MUNGERE, mappa di VA *bligicare #eher alpino occidentale

    https://www.patoisvda.org/moteur-de-recherche/bl%C3%A9ts%C3%A9_7909_4/

    romanzo locale -- latino locale??

    selzionati mostrano che i patois valdostani si inseriscono in modo

    vanno quindi gli esempi presentati sono selzinati ale
    KÄSE
    1-182 le fromage [gén.]

    2 spz., etym. unklare Typen *fièitse *bédzo *cafo

     

    Area francese

     

    ??Area del versante sud delle Alpi

    Area gallo-alpina

    evtll Quark / caillé

    Area galloromanza orientale e tedesca

     

    magari il verbo un der. dal sost. e non in senso contrario?

    ###

    Der APV/1 erhebt den unbedingt vorbildlichen Anspruch auch für Laien – nicht zuletzt für die Sprecher*innen selbst – verstehbar zu sein und so zur Divulgation der Geo- bzw. Ethnolinguistik beizutragen:

    #gibt es eine enstsprechende bem auch im Band?#

    "I 112 articoli principali che compongono il volume esplorano le “parole” e le “cose” di un settore fortemente caratterizzante la cultura materiale alpina tradizionale: la filiera del latte. Lo fanno tenendo certamente presente la tradizione scientifica consolidata della geolinguistica delle lingue romanze, ma con una particolare attenzione anche alla “divulgazione” dei contenuti scientifici, al loro riutilizzo come tema di interesse nella scuola valdostana, alla loro “restituzione” alla comunità locale (patoisante e non) che ne è, a ben vedere, la prima proprietaria." (Quelle

    Gemessen an dieser Absicht ist die grundsätzliche Entscheidung  für eine gedruckte, buchförmige Publikation schwer nachvollziehbar. Denn einer der unbestreitbaren Vorzüge der Web-Publikation besteht ja gerade in ihrer vollkommen uneingeschränkten Verfügbarkeit – von den anderen Option, wie z.B. der Möglichkeit auch Audiomaterial einzubinden und Aggregierbarkeit durch daten anderer Atlanten/Lexika einaml ganz abgesehen.

    ###

     

    Hans Goebl
    GIOVANBATTISTAPELLEGRINI UND ASCOLIS
    METHODE DER "PARTICOLAR COMBINAZIONE"
    Ein Besprechungsaufsatz, Ladinia 23 (1999) 139-​181.

    Modell

    Brather, Sebastian, Ethnische Identitäten als Konstrukte der frühgeschichtlichen Archäologie,
    Germania 78 (2000), 139–171.
    Heitmeier, Irmtraut, Das Inntal. Siedlungs- und Raumentwicklung eines Alpentales im Schnittpunkt
    der politischen Interessen von der römischen Okkupation bis in die Zeit Karls des
    Großen, Innsbruck, Wagner, 2005.

    Martin, Jean-Baptiste / Tuaillon, Gaston (1971, 1978, 1981): Atlas linguistique et ethnographique du Jura et des Alpes du nord, Paris, vol. 1, 3, 3a, Éd. du Centre National de la Recherche Scientifique


    1. Für die Bereitstellung der Belege danke ich Fiorenzo Toso; sie stammen aus dem Material des noch unveröffentlichten Dizionario etimologico storico genovese e ligure 


    Bibliographie

    • TLIO = Eintrag nicht gefunden
    • ALEPO = Telmon, Tullio (2013): Atlante Linguistico ed Etnografico del Piemonte Occidentale III: Il mondo animale: I La Fauna: II caccia e pasca, Alessandria, vol. 3, Edizioni dell’Orso. Link
    • ALJA = Martin, Jean-Baptiste / Tuaillon, Gaston (1971, 1978, 1981): Atlas linguistique et ethnographique du Jura et des Alpes du nord, Paris, vol. 1, 3, 3a, Éd. du Centre National de la Recherche Scientifique
    • Gra.fo = Calamai, Silvia / Bertinetto, Pier Marco (2014): Le soffitte della voce: il progetto Grammo-foni, Manziana (Roma), Vecchiarelli. Link
    • Idiotikon = (1881 ff.): Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch, Basel. Link
    • Sottile 2002 = Sottile, Roberto (2002): Lessico dei pastori delle Madonie, Palermo, Centro di studi filologici e linguistici siciliani. Link

    Alles auf Null (und Eins) – Forschungskommunikation in virtueller Umgebung, am Beispiel von VerbaAlpina (Präsentation) (Zitieren)

    Stephan Lücke


    (1630 Wörter)

    Vortrag, gehalten von Thomas Krefeld und Stephan Lücke am 19.05.2021 im Rahmen der von Prof. Dr. Christine Haug, Dr. Marcel Schellong im Sommersemester 2021 veranstalteten "Vortragsreihe Forschungspotential der Digital Humanities in der Buch- und Literaturwissenschaft" (Programm)


    0. Vorab

    1. Übersicht

    2. Projektvorstellung

    3. Technische Umsetzung

    4. Theorie der Forschungskommunikation in virtueller Umgebung

    5. Herausforderungen der Virtualität/Digitalität für die Forschungskommunikation

    2. VerbaAlpina

    • "Lexikographisches" Projekt mit Focus auf dem Alpenraum
    • Wörter aus dem Umfeld typisch alpiner Konzeptdomänen (Alm- und Milchwirtschaft, Fauna, Flora, Ökologie, Tourismus); Konzeption in der Tradition der romanistischen Ethnolinguistik)
    • sprachgrenzüberschreitend im germanischen, romanischen und slawischen Sprachraum; (vgl. Sprachfamilien im Alpenraum und Karte)
    • Berücksichtigung auch und vor allem dialektaler Ausdrücke
    • Quellen: in der Hauptsache Sprachatlanten und Wörterbücher
    • Ergänzung/Abrundung/Ausgleich durch Crowdsourcing
    • Wesentliche Voraussetzung: Georeferenzierung (geographische Verortung von Einzelbelegen)
    • Dadurch: Dokumentation von Verbreitungsarealen bestimmter Lexeme (u. a. interessant: Verbreitungsareale, die die Grenzen von Sprachfamilien überschreiten, z. B.: lat. excŏcta,  sowohl im germ., rom. als auch slaw. Sprachraum)
    • Visualisierung durch eine interaktive Karte (vgl. Karte excŏcta)
    • Bidirektionale Perspektive:
    • In diesem Sinn auch Überwindung der Gattungen (Lexika: "Vom Wort zur Sache", Sprachatlanten: "Von der Sache zum Wort")
    • Förderung durch die DFG als "Langfristvorhaben" seit 2014 (derzeit Phase 3, bis 2023)
    • Personelle Ausstattung: 2 Sprachwissenschaftler, 2 Informatiker, Hilfskräfte (Team)
    • VA in sprachwissenschaftlicher Hinsicht: interlinguale Geolinguistik (zutreffender als ‘Dialektologie’)

     

    3. Technische Umsetzung

    • VA ist vollständig digital konzipiert (konsequenter Verzicht auf Papier)
    • Ausschließlich Einsatz von Web-Technologie (daher u. a. kein Powerpoint ...)
    • grundsätzlich keine proprietäre/kostenpflichtige Software, nur Open Source
    • Content Management System (CMS): WordPress
    • Backend: MySQL-Datenbank
    • Entwicklung zahlreicher "Tools" durch die Projektinformatiker, z. B.:
      • Interaktive online-Karte
      • LexikonAlpinum
      • Transkriptionstool
      • Typisierungstool
      • Crowdsourcingtool (Link)
      • ...
    • Multifunktionales Webportal:
      • Arbeitsinstrument für Erzeugung von Inhalten (Datensammlung, Datenverarbeitung und -aufbereitung)
      • Publikation von Inhalten
      • Kommunikation (z. B. Sitzungsprotokolle)

     

    4. Theorie der Forschungskommunikation in virtueller Umgebung1

    • Wesentlicher Teil des Selbstverständnisses: Selbstreflexion ⇒ Rubrik Methodologie (Verwendung im vorliegenden Beitrag)
    • Sprachwissenschaft und Informationstechnik nicht einfach additiv, sondern im aristotelischen Sinn mehr als die Summe der beiden Teile ⇒ Einsatz der Informationstechnik verändert Sprachwissenschaft substantiell (Wesen der DH ganz generell)

    Graphik 1

    • Die durch die technischen Möglichkeiten veränderten Rahmenbedingungen verlangen, die traditionellen Formen der Wissenschaftskommunikation2 zu überdenken und diese an den neuen Möglichkeiten auszurichten.
    • Entsprechende Reflexion und exemplarische Umsetzung ist eines der Ziele von VA

    Traditionell mit dem Medium des Buchdrucks

    Graphik 2

    • Drei Phasen:
      • Forscher sucht und sammelt Informationen (= Rohdaten von Quellen, Informanten)
      • Forscher verarbeitet und *selektiert* (theoriegebunden) Informationen
      • Forscher publiziert die Ergebnisse auf Papier (= öffentlicher medialer Diskurs)
        • ausschließlich 'finale' Relevanz des Publikationsmediums
        • teilweise Fremdbestimmung des AUTORs durch die VERLAGe (z.B. Sprachwahl)
        • extrem eingeschränkte Zugänglichkeit des Produkts (in Bibliotheksregalen)
    • feste Bindung der kommunikativen Rollen (AUTOR – QUELLE – LESER) an Personen

    Digital und im Web (2.0)

    • Web ermöglicht einen Neustart des öffentlichen medialen Diskurses ('auf Null')
    • genuin digital ('0' | '1')

    Graphik 3

    Publikation

    • permanente Relevanz von Publikationsmedien während des gesamten Forschungsprozesses
      • substantielle Änderung des Publikationsbegriff
        • nicht nur Text: alles im gestrichelten Oval von Graphik 3 ist publikationsfähig
        • Live-Daten können publiziert werden (Link)
      • Hoheit | Kontrolle in der Kompetenz des Projekts (100% selbstbestimmt)

    Graphik 4

    Transparenz der Daten

    • Relation zwischen den publizierten Informationen einsehbar
      • Beispiel Transkription: Original – Beta – IPA

    Graphik 5 – Link

    • im Fall von VA: LESER → Datenbankabfrage der Primärdaten

    Graphik 6 – Link

    Wechsel der kommunikativen Rollen

    im Fall von VA:

    • LESER → QUELLE (CS-Reaktion auf VA-Öffentlichkeitsarbeit)

    Graphik 7 – Beispiel Januar 2021 (Facebook) Link

    Graphik 8 – Beispiel April-Mai 2018 (HP BR, Bayern 2) Link

    • QUELLE → AUTOR
      • durch Eingabe neuer KONZEPTE, Button 'Begriffe vorschlagen', Link):

    Graphik 9

      • Definition und Fixierung eigener Karten

    Graphik 10 – Link

    5. Herausforderungen der Virtualität/Digitalität für die Forschungskommunikation

    • Vorteile des gedruckten Buchs:
      • dauerhaft
      • unveränderbar
      • stabil zitierbar ⇒ Titel, Seite/Spalte
      • institutionell abgesichert ⇒ Bibliotheken
    • Vorteile von Digitalität/Virtualität:
      • (theoretisch) grenzenlose Verfügbarkeit
      • elektronische Verknüpfbarkeit von Inhalten
      • vergleichsweise geringe Kosten
      • Erleichterung von Zusammenarbeit (Erzeugung von Inhalten durch große Anzahl von Beteiligten/Autoren)
      • Multimedialität (Text, Ton, Bild – auch in 3D)
      • Erleichterung des bidirektionalen Austausches Autor ⇔ Leser (etwa durch Kommentarfunktion)
      • Unabhängigkeit von Verlagen
      • ...
    • Wesentliche Nachteile der Digitalität/Virtualität:
      • prekäre Stabilität ("Flüchtigkeit"; dabei geht es um Änderungen im Detail genauso wie um vollständiges Verschwinden)
      • Fehlen eines verbindlichen Referenzsystems (Ersatz für Buchseiten)
      • bislang noch nicht etablierte Strukturen bzw. Zuständigkeiten

    ZIEL: Nutzung der Vorteile der Digitalität *ohne* Verlust der Vorteile des Buches

    Antworten von VA

    Prekäre Stabilität

    • Versionierung: Jeweils zu Jahresmitte und -ende "Einfrieren" des Datenbestands
      • Technisch: Anfertigung einer Kopie der Projektdatenbank:

    Graphik 11 – Die verschiedenen Versionen der VA-Datenbank auf dem MySQL-Datenbankcluster der ITG

      • Arbeitsversion: XXX (bedingt zitierfähig; Stabilität der Inhalte nicht garantiert)
      • Wechsel in Zitierversionen ⇒ Inhalte garantiert stabil

    Graphik 12

    • In zitierfähigen Versionen von VA: Einblendung von Zitierlinks:

    Graphik 13 – Zitierlink in der Version 20/2 von VerbaAlpina

    Adressierbarkeit

    Feingranulare URLs/DOIs

    VA und Normdaten

    • Normdaten generell wichtig für inhaltlich/semantisch exakte und außerdem maschinell operationalisierbare wechselseitige Referenzierung zwischen verschiedenen Datenbeständen (im Sinne der Forschungskommunikation)
    • Vorteile von Normdaten:
      • Normdaten schließen Ambiguitäten aus
      • Normdaten vereinfachen Datenmappings:

    Graphik 14 – Vereinfachtes Mapping durch Verwendung  von Normdaten

      • Normdaten müssen klar definiert und stabil sein
      • Normdaten entfalten maximalen Nutzen bei maximaler Akzeptanz (nicht steuerbar)
    • VA-Nutzung externer Normdaten:
      • Identifikatoren von Referenzlexika (für morpholexikalische Typen)
      • Wikidata-QIDs (für Konzepte)
      • Geonames-IDs (für Georeferenzen)
      • künftig?: Wikidata L-IDs (für morpholexikalische Typen; aktuell problematisch, da mit VA inkompatibel)

    Graphik 15 – Einbindung externer Normdaten (Geonames, Wikidata-QIDs, URLs von Referenzwörterbüchern) – Link

    Graphik 16

    Basistyp B180 im XML-Format (Screenshot)

    Institutionelle Absicherung

    • Wesentlicher Aspekt: Für die dauerhafte Bewahrung von Wissen braucht es verantwortliche Institutionen mit unbefristeter Existenzperspektive
    • Aus Sicht von VA sind die wissenschaftlichen Bibliotheken der natürliche Partner
    • VA hat sich daher schon früh an die UB der LMU gewandt
    • VA-Daten werden in das Forschungsdatenrepositorium der UB übertragen (Entwicklung der entsprechenden Prozeduren in den letzten Jahren)
    • seit Mai 2021: Discover@UB:

    Graphik 17 – Suchportal des UB-Forschungsdatenrepositoriums (Link)

      • Strukturierter Kerndatenbestand von VerbaAlpina
      • derzeit 222630 Datensätze (Versionen 19/1 und 19/2)
      • unterschiedliche Granularität (komplette Versionen,
      • Einbindung von generischen Metadaten (Datacite, DDC)
      • Ad-Hoc-Erzeugung von DOIs für Einzelobjekte

    Graphik 18 – Ad-Hoc-Erzeugung einer DOI für einen VA-Datensatz auf Discover@UB (Link)

    • Neben UB: Enge Anbindung an ITG
    • ITG übernimmt Betrieb und Pflege des VA-Portals auch über das Projektende hinaus ("post mortem"; im Rahmen der technischen und personellen Möglichkeiten)

    Graphik 19 – Institutionelle Einbettung von VerbaAlpina

    Ungelöstes (unlösbares?) Problem: "Lebende" Systeme (Webportale)

    • Dauerhafter, unbefristeter Betrieb von Webportalen bedarf permanenter Pflege
    • Zwei Kernprobleme:
      • Ständige Veränderung der Softwareumgebung (Betriebssysteme, Frameworks) ⇒ Updates (v. a. wegen Sicherheitsproblematik)
      • Abhängigkeit von externen Ressourcen durch Vernetzung ("tote" Links; instabile Inhalte)
    • Beispiel für Abhängigkeit: VA auf archive.org:

    Graphik 20 – Fehlermeldung von Google auf der frühesten bei archive.org archivierten VerbaAlpina-Version

    • ⇒ gekapselte Systeme (z. B. Dockerimages) keine Lösung wegen Abhängigkeiten durch Vernetzung
    • Notbehelf: Detaillierte Dokumentation der Funktionsweise des Webportals (zusammen mit Dokumentation von Datenbank und entwickeltem Softwarecode ⇒ Künftige "Rekonstruktion" der Funktionalitäten des Webportals zumindest theoretisch möglich)

     

    Wir danken für Ihre Aufmerksamkeit!

    ***


    1. Die Überlegungen dieses Kapitels gehen im Kern auf Krefeld 2011 zurück; sie flossen also bereits in die Konzeption von VerbaAlpina ein und wurden im Zuge der Projektarbeit kontinuierlich elaboriert. 

    2. Der Ausdruck wird oft enger gefasst und im Sinne von "externer Forschungskommunikation" verwandt; dann bezeichnet er ausschließlich die divulgative "Kommunikation von Forschung über Fachgrenzen hinaus", so z. B. von Knöchelmann 2021; diese Verwendung wird der medialen Grundlage von Kommunikation und ihrer radikalen Veränderung nicht gerecht. Webbasierte Kommunikation muss gerade nicht trennscharf zwischen Laien- und Fachpublikum unterscheiden, sondern kann sich gleichermaßen – wenn auch nicht in identischer Weise – sowohl an das eine wie an das andere wenden. 


    Bibliographie

    • Knöchelmann 2021 = Knöchelmann, Marcel (2021): Die Stunde der Vermittler, in: FAZ vom 19.5.2021, 4
    • Krefeld 2011 = Krefeld, Thomas: La raccolta di dati linguistici ai tempi dei nuovi media, Palermo, in: Gruppo di ricerca dell'Atlante Linguistico della Sicilia (Hrsg.), Per i linguisti del nuovo millennio. Scritti in onore di Giovanni Ruffino, Sellerio, 111-114