VerbaAlpina II: Technische Aspekte (im Rahmen der Ringvorlesung „Einblicke in digitale sprachwissenschaftliche Forschungsprojekte“) (Zitieren)

Stephan Lücke


(2720 Wörter)


Gliederung

  • Einführung
  • Datenerfassung
  • Ergebnis der systematischen Datenerfassung
  • Crowdsourcing (CS)
  • VerbaAlpina und FA*I*Rness
  • Die reine Technik
  • IT-Team von VerbaAlpina

Einführung

  • Ergänzung des Vortrags von Thomas Krefeld, der VerbaAlpina als geolinguistisches Vorhaben um Umfeld der Digital Humanities vorgestellt und den Fokus auf VerbaAlpina als "virtueller Forschungsumgebung" gelegt hatte.
  • Kernfrage: Welche Dinge werden wo mit welchen Wörtern bezeichnet?
  • Fundamental: Unterscheidung zwischen Bezeichnung und KONZEPT, im Folgenden (und generell in Texten außerhalb der Datenbank) markiert durch unterschiedliche Typographie (Bezeichnung kursiv, Konzept in Versalien) ⇒

Butter ≠ BUTTER

  • Geographischer Rahmen: Alpenraum (Perimeter der Alpenkonvention [= völkerrechtlicher Vertrag zum Schutz der Alpen aus dem Jahr 1991] – rein pragmatische Entscheidung, aus der Perspektive der Operationalisierbarkeit unverzichtbar)
  • Geographische Referenz sind für VerbaAlpina die politischen Gemeinden im Alpenraum. Festgelegter Bestand, administrative Veränderung (Schaffung neuer Gemeinden, Fusion etc.) werden nicht berücksichtigt. Insgesamt 5771 Gemeinden ([[SQL:SELECT COUNT(*) AS Anzahl FROM orte a JOIN orte_kategorien b USING(id_kategorie) WHERE a.Alpenkonvention = 1 AND b.Id_Kategorie = 62]]; Karte)
  • Datenbasis:
    • Sprachatlanten
    • Wörterbücher
    • ergänzt um Daten der "Crowd" (sog. Crowdsourcing)
  • "Digitalisierung" erfolgt grundsätzlich über eine Reihe aufeinander folgender Ebenen:

Allgemeines Digitalisierungskonzept für Textquellen


Datenerfassung

  • Datenerfassung: Transkription aus Sprachatlanten und Wörterbüchern
  • Sprachatlanten: onomasiologisch ("Welche Bezeichnungen gibt es z. B. für ein bestimmtes Konzept?"):

FLÜSSIGKEIT NACH DER GERINNUNG DER FESTSTOFFE BEI DER HERSTELLUNG VON KÄSEMolke, Abzug, Jutte, Käsemilch, kweta, petit-lait ...

  • georeferenzierte (!) Wörterbücher: semasiologisch (Welche Konzepte bezeichnet z. B. das Wort malga?)

Gaden (germanisch, Substantiv, männlich, nicht-affigiert) ⇒ DACHKAMMER, RAUM ZUM LAGERN VON MILCHPRODUKTEN, SCHEUNE, SCHLAFRAUM, STALL (Auswahl)

Beispiel Sprachatlanten

  • Sprachatlanten bislang quantitative Hauptquelle für VerbaAlpina
  • Zahlreiche Sprachatlanten im Alpenraum: Karte 

Netz der Sprachatlanten in Zentral- und Westalpen

  • Beispiel: der AIS (Sprach- und Sachatlas Italiens und der Südschweiz, Karl Jaberg, Jakob Jud, 1928-40): Elektronische Version "Navigais" von Graziano Tisato:

Die Karte 1218 (KÄSEMILCH = MOLKE) des AIS in der online-Präsentation Navigais von Graziano Tisato

  • Die roten Nummern stehen für die Informanten
  • Neben den Nummern stehen Äußerungen, die von den Informanten stammen ("Einzelbelege")
  • Phonetische Transkription im sog. Böhmer-Ascoli-System (ähnlich Teuthonista)
  • Aus dieser Karte muss strukturiert die Information erfasst werden, an welchem Ort das vorgegebene Konzept wie bezeichnet wird. Beispiel:
Konzept Ortspunkt Äußerung
MOLKE 227 laʧ sɛrˈu
MOLKE 225 laj serˈuŋ
  • Die Informanten-Daten werden in einer eigenen Tabelle abgespeichert:
Erhebung Nummer Gemeinde Alter Geschlecht
AIS 225 Mello 25 m
AIS 227 Albosaggia 41 m
  • Alter und Geschlecht werden nicht von allen Sprachatlanten angegeben. In solchen Fällen bleiben die Felder einfach leer.
  • Der AIS liefert jedoch detaillierte Informationen zu den Informanten in den sog. "Aufnahmeprotokollen" (Jaberg/Jud 1928):

Aufnahmeprotokoll des AIS zum Erhebungspunkt 227 (Albosaggia) – Die hier in Frage gestellte Nummer 32 bezieht sich auf die Reihenfolge, in der die Erhebungen durchgeführt worden sind. Qn bezeichnet den "Questionario normale", also das Standardfragebuch, das hier zum Einsatz gekommen ist (alternativ: Qe [erweitert], Qr [reduziert]). Die erwähnten Fotos sind online verfügbar in der "AIS Datenbank" der Universität Bern (http://130.92.166.34/fmi/webd/AIS)

  • Auch Daten zu den Gemeinden werden in einer eigenen Tabelle abgespeichert:

(Abfrage: [[SQL:SELECT NAME, round(ST_x(a.Mittelpunkt),2) AS lng, round(ST_y(a.Mittelpunkt),2) AS lat, a.geonames as Geonames_ID FROM orte a WHERE a.Name IN ('Mello (Sondrio)','Albosaggia') AND a.Beschreibung LIKE 'Commune']])

Transkriptionsverfahren

  • Das Problem:

  • Umgang mit Zeichen(kodierung): Böhmer-Ascoli nicht Unicode-kodiert, selbst wenn: Eingabe über Tastatur sehr umständlich, daher Einsatz des:
  • Betacode; Ideengeber: Thesaurus Linguae Graecae (1974)

Prinzip des Betacodes

  • Verfahren ist quellenunabhängig: Identische Zeichen bzw. Zeichenkombinationen (Basiszeichen samt Diacritica) werden stets identisch transkribiert, auch wenn möglicherweise unterschiedliche "Bedeutungen" vorliegen. Diese werden bei der automatischen Umsetzung in IPA berücksichtigt.
  • Automatische Erfassung der Daten bislang nicht möglich
  • OCR wäre nicht das Problem! ⇒ Lücke/Riepl/Trautmann 2017, S. 126ff.
  • Hauptproblem jedoch: Zuordnung der Belege zu den einzelnen Erhebungspunkten

Ausschnitt aus AIS 1218_1 (KÄSEMILCH)

  • Thema wurde in einer Masterarbeit in der Informatik behandelt (Methoden: "nearest neighbour" oder "deep learning"). Die Arbeit lieferte kein operationalisierbares Ergebnis; Problem also weiterhin ungelöst.
  • daher manuelle Erfassung der Daten mit dem VA-Transkriptionstool:

VA-Transkriptionstool: Beispiel AIS-Karte 1218_1 "KÄSEMILCH"

  • VA nutzt auch das generische Croudsourcing-Framework Zooniverse: Freiwillige im Netz sollen AIS-Karten transkribieren: https://www.zooniverse.org/projects/filip-hr/verbaalpina
  • Entwickelt mit Hilfe des generischen Entwicklungstools "Zooniverse Project Builders"
  • Auslöser war das Zooniverse-Projekt "Old Weather" – Wetterrekonstruktion aus Logbüchern von Arktis-Fahrern im 19. und 20. Jh.
  • Ursprünglicher Gedanke bei der Nutzung des Zooniverse Project Builders: Zeitersparnis – Arbeit hat sich aber als sehr aufwendig herausgestellt; immer wieder Auflagen und Nachfragen von Seiten Zooniverse. Daher: "...  not yet an official Zooniverse project"
  • Die über VA-Zooniverse ausgeführten Transkriptionen können in csv-Dateien exportiert und von dort in die Datenbank von VerbaAlpina übertragen werden:

  • Bislang erst sehr wenige Transkriptionen, da noch nicht beworben

Typisierung

  • Die Sprachatlanten und Wörterbücher präsentieren unterschiedliche Kategorien von Sprachmaterial. Wir unterscheiden:
    • Einzelbeleg: Konkrete Äußerung eines Sprechers (= Informanten) zu einem ganz bestimmten Zeitpunkt an einem bestimmten Ort. Von der Quelle meist in phonetischer Transkription wiedergegeben.
    • Typisierte Belege: idealisierte Repräsentanten eines an einem Ort oder in einer Region verbreiteten "Typs" – Typisierung kann unterschiedlichen Kategorien folgen

Schriiner, Schriner, Schreiner (bündelt jeweils individuelle Varianten [Einzelbelege])

      • morpholexikalische Typisierung – Sämtliche Varianten, egal ob Einzelbelege oder Typisierungen, werden zu morhpolexikalischen Typen zusammengefasst:
morphTyp phonTypen
Schreiner Schriiner, Schriner, Schreiner
Schnitzer Schnätzer, Schnätzi
Meister Mäischter
Holzmeister Holzmäischter
Tischmacher ?
Tischler ?

VA ist primär an den morpholexikalischen Typen interessiert, registriert und präsentiert bei Suchergebnissen aber jeweils auch Einzelbelege oder ggf. auch phonetische Typen.

Der [Bibl:AIS] liefert, in bester romanistischer Tradition, jeweils

Beispiel einer Quelle mit Einzelbelegen: AIS

  • Die beiden oben zitierten Belege aus der Karte "KÄSEWASSER" des AIS unterscheiden sich zwar hinsichtlich der phonetischen Transkription, repräsentieren jedoch beide offenkundig den selben morpholexikalischen Typ (die hier vorgelegte Zuweisung zum Typ "latte serone" ist exemplarisch und vorerst spekulativ):
Konzept Ortspunkt Äußerung morph_typ
MOLKE 227 laʧ sɛrˈu latte serone
MOLKE 225 laj serˈuŋ latte serone
  • ⇒ sämtliches gesammeltes Material muss typisiert werden
  • Was ist ein morpholexikalischer Typ? ⇒ VerbaAlpina dokumentiert solche und ähnliche Fragen in der Sektion "Methodologie" (hier: s. v. Typisierung)
  • Arbeit, die nur von Sprachwissenschaftlern geleistet werden kann: Aufgabe der romanistischen und germanistischen Mitarbeiter von VA
  • Nutzung des Typisierungstools (s. auch den Eintrag "Typisierung: Anlegen morpho-lexikalischer Typen" in der Methodologie):

Die Karte AIS 1218_1 im Typisierungstool von VerbaAlpina

  • Status der in den Quellen versammelten Daten hinsichtlich Typisierung sehr unterschiedlich
  • manche Sprachatlanten liefern bereits typisierte Daten und präsentieren spezifische Einzelbelege der Informanten nur punktuell
  • Beispiel: VALTS (Vorarlberger Sprachatlas)

Karte 73 aus dem Vorarlberger Sprachatlas VALTS IV: SENNHÜTTE bzw. SENNEREIRAUM AUF DER ALPE

  • Diese Karte vereint die Dokumentation mehrerer unterschiedlicher Konzepte (neben SENNHÜTTE und SENNEREIRAUM AUF DER ALPE noch weitere: PRIMITIVE SENNHÜTTE AUF MAIENSÄßEN, SENNKÜCHE, KÄSEKELLER etc.)
  • Präsenz unterschiedlicher morpholexikalischer Typen durch spezifische Symbole markiert (sog. "Punktsymbolkarte"; typisch für Sprachatlanten in germanistischer Tradition)
  • rote Symbole markieren morpholexikalische Typen romanischen Ursprungs, schwarze solche deutschen Ursprungs
  • Automatisierung unmöglich; manuelle Datenerfassung durch Spezialisten unerlässlich
  • Beispiel braune Markierung: In der Ortschaft Bichlbach (Erhebungspunkt T6), wird der SENNEREIRAUM INNERHALB DER ALPHÜTTE als Sennküche bezeichnet
  • Abbildung dieser Informationen im relationalen Datenformat:
Konzept Ortspunkt Äußerung morph_typ
SENNEREIRAUM INNERHALB DER ALPHÜTTE T06 ? Sennküche
  • Erfassung von Daten aus Wörterbüchern. Beispiel: [[Bibl:Idiotikon]

Eintrag "Teie" im Schweizerdeutschen Wörterbuch (Idiotikon)

Gliederung des Eintrags "Teie" im Schweizerdeutschen Wörterbuch (Idiotikon) nach den Kategorien des VerbaAlpina-Datenmodells

  • relationale Abbildung (exemplarischer Ausschnitt):
Konzept Ortspunkt Äußerung morph_typ
GEBRECHLICHE, BESCHRÄNKTE, SCHWERFÄLLIGE WEIBSPERSON Chur ? Teie

Ergebnis der systematischen Datenerfassung

  • Viele Bezeichnungen für viele Konzepte (m:n-Beziehung), stets georeferenziert (fiktive Tabelle):
Bezeichnung Konzept Gemeinde
malga HERDE Colico
malga ALM Pieve Di Ledro
malga SENNHÜTTE Ossana
muvel HERDE Lantsch/Lenz
pastura HERDE Wolkenstein in Gröden
... ... ...
  • Datenbank ermöglicht doppelte Perspektive: onomasiologisch und semasiologische (traditionell an unterschiedliche Publikationsarten gebunden: Sprachatlanten und Wörterbücher):
  • Relationales Datenmodell erlaubt den Einsatz der relationalen Algebra
  • ⇒ Einsatz der formalen Sprache SQL (structured query language) möglich
  • Beispiel für eine onomasiologische Suche:
select * from tabelle
where Bezeichnung like 'malga';

Ergebnis:

Bezeichnung Konzept Gemeinde
malga HERDE Colico
malga ALM Pieve Di Ledro
malga SENNHÜTTE Ossana
  • Beispiel für eine semasiologische Suche:
select * from tabelle
where Konzept like 'HERDE';

Ergebnis:

Bezeichnung Konzept Gemeinde
malga HERDE Colico
muvel HERDE Lantsch/Lenz
pastura HERDE Wolkenstein in Gröden
... ... ...
  • Die relationale Algebra erlaubt komplexe Berechnungen über dem Datenbestand
  • Beispiel:
/*
 SQL-Statement 
 Finde sämtliche morpholexikalischen Typen, 
 die das Konzept MOLKE bezeichnen, 
 und gib die jeweilige Häufigkeit des morpholexikalischen Typs an
*/

select 
 Name_Konzept as Konzept, 
 typ,
 anzahl

from
(
 select 
  count(*) as Anzahl, 
  a.Name_Konzept, 
  a.Typ 
 from vap_ling_de a
 
 where 
  a.Name_Konzept like 'MOLKE'
  and a.Art_Typ like 'Morph_Typ'
  group by a.Typ
  order by Anzahl desc
) sq
;
  • Weitere Fragestellungen, die mit der relationalen Algebra beantwortet werden können:
    • Welche Konzepte weisen die höchste Varianz lexikalischer Variation auf?
    • Wie hoch ist der Anteil lateinischer Basistypen bezogen auf ausgewählte Regionen innerhalb des Alpenraums?
  • Kartierung: Analytische Ergebnisse können auf der interaktiven online-Karte von VerbaAlpina visualisiert werden

Kartierung des Konzepts MOLKE auf der interaktiven online-Karte von VerbaAlpina

  • Kartierungen können über das "Teilen"-Symbol rechts oben auf der online-Karte dauerhaft gespeichert und durch das Versenden des entsprechenden Links mit anderen geteilt werden
  • Belegfenster, Beispiel:

Beispiel für ein Einzelbelegfenster auf der interaktiven online-Karte von VerbaAlpina

  • Einzelbelegfenster enthält neben Informationen zu Einzelbeleg (links oben), morpholexikalischem Typ und Konzept Verlinkungen auf externe Ressourcen: Geonames (kleiner Globus rechts oben) sowie Referenzlexika (G: Georges; C: CNRTL; T: Treccani; F: FEW)
  • Wichtig für Referenzierung auf externe Ressourcen: Deren feine Datengranulierung – jedes "Datum" muss präzise über eine URL ansprechbar sein ("Interoperabilität"!) ⇒ eine Lehre für VerbaAlpina!
  • Quantifizierungen: spezielle Funktion auf der interaktiven online-Karte:

Quantifizierende Kartierung des morpholexikalischen Typs "Anke" auf der interaktiven online-Karte von VerbaAlpina

  • Hexagon-Karte:

Abbildung des Vorkommens des morpholexikalischen Typs "Anke" auf der Hexagonkarte von VerbaAlpina

  • Neben der kartographischen Ergebnispräsentation bietet VerbaAlpina eine textorientierte Version an: das Lexicon Alpinum:

Das Lexicon Alpinum von VerbaAlpina

  • Kommentare zu ausgewählten (!) Konzepten, morpholexikalischen Typen und Basistypen (Basistyp: Gibt den Ursprung eines morpholexikalischen Typs an; nicht notwendig ein "Etymon" im sprachwissenschaftlichen Sinn)
  • Angabe der VA-spezifischen Normdaten, die die VA-Konzepte und -morpholexikalischen Typen eindeutig bezeichnen.
  • Einträge im Lexicon Alpinum sind über URLs direkt referenzierbar. Beispiel: https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=2374&db=xxx&comment_id=L581#L581 (Morphtyp L581 Anke)
  • Diachrone Streuung des Datenmaterials über mindestens rund 100 Jahre (je nach Alter der Quellen)!

Crowdsourcing (CS)

  • Systematische Erfassung von Daten aus Atlanten und Wörterbüchern ergibt regionale Inkonsistenzen: Nicht für alle Gemeinden im Untersuchungsgebiet liegen Daten für alle Konzepte vor. Schematische Darstellung:
Gemeinde 1

(Atlas I)

Gemeinde 2

(Atlas II)

Gemeinde 3

(Atlas III)

Gemeinde n

(Atlas N)

Konzept A x x x
Konzept B x x
Konzept C x x
Konzept n x x x
  • Sog. "Nacherhebungen" erforderlich
  • Feldforschung nicht finanzierbar
  • Lösung: Crowdsourcing ("Begriff" erstmals 2006 von Jeff Howe verwendet): "... bezeichnet die Auslagerung traditionell interner Teilaufgaben an eine Gruppe freiwilliger User, z. B. über das Internet" (Wikipedia)
  • VerbaAlpina hat ein eigenes Crowdsourcing-Tool entwickelt (CS-Tool):

Das Crowdsourcing-Tool von VerbaAlpina

  • Eingabe von Bezeichnungen für auswählbare Konzepte
  • Ergebnis:
Gemeinde 1 Gemeinde 2 Gemeinde 3 Gemeinde n
Konzept A x CS x x + CS
Konzept B x x + CS CS
Konzept C CS x x
Konzept n x CS x + CS x
  • Konzept aus Sicht von VerbaAlpina durchaus erfolgreich:

Monitoring-Webseite für das Crowdsourcing-Tool von VerbaAlpina

  • Bislang über 11000 Eintragungen
  • Erkenntnis: Werbung ist unverzeichtbar
  • Diachrone Asymmetrien bestehen weiterhin bzw. kommen gar hinzu!
  • Andererseits: Dokumentation von Verschwinden bzw. Entstehung von morpholexikalischen Typen
  • Auch das Entstehen neuer Konzepte kann auf diese Weise erfasst bzw. dokumentiert werden (z. B. ELEKTRONISCHE KUHGLOCKE)

VerbaAlpina und FA*I*Rness

  • VerbaAlpina befasst sich derzeit verstärkt mit der Thematik des Forschungsdatenmanagement (FDM): Einbindung in die Projekte eHumanities – interdisziplinär und GeRDI
  • Wesentlicher Aspekt dabei: Gebot der FAIRness (Graphik von Thomas Krefeld):
FAIR principles
Data have to be Findable
Accessible
Interoperable
Reusable
  • Im Fokus: "Interoperabilität"; Beispiele:
  • Als wesentliche Voraussetzung für Interoperabilität erscheinen Normdaten: "normierte" Datensätze; Normdaten existieren für ganz unterschiedliche Entitäten, z. B. Personen, Geographica oder auch Konzepte

Normdaten für Personen und Geographica

Normdaten für Konzepte

Normdaten für morpholexikalische Typen

  • Für viele Entitäten existieren speziell in der GND bislang noch keine Normdaten, so z. B. für morpholexikalische Typen – schlecht für VerbaAlpina, da morpholexikalische Typen eine der für VA zentralen Kategorien sind.
  • Ansätze allerdings bei Wikidata:  "lexemes": https://www.wikidata.org/wiki/Wikidata:Lists/lexemes
  • Beispiel: morpholexikalischer Typ "der Käse": https://www.wikidata.org/wiki/Lexeme:L49797
  • Die entsprechende Nummer wird in der Tabelle der Morphtypen in der DB von VA eingetragen:
  • Einträge können von Usern angelegt werden (evtl. Beispiel formaggio)

Die reine Technik

  • VerbaAlpina ist vollständig "digital"
  • Im wesentlichen zwei Komponenten: Ein multifunktionales (!) Web-Portal (VA_WEB) und eine (relationale) MySQL-Datenbank (VA_DB; in der Realität mehrere, vor allem zwei: eine spezifischen Projektdatenbank und eine WordPress-Datenbank für den Betrieb von VA_WEB)
  • VA_WEB: WordPress-Installation: in PHP programmiert, erweitert um projektspezifische Funktionen, die modular als "Plugins" realisiert und der Allgemeinheit über Github zur Verfügung gestellt werden.
  • relevante VA-Eigenentwicklungen für VA_WEB:
    • Transkriptionstool
    • Typisierungstool
    • Crowdsourcing-Tool (CS-Tool)
    • SQLtoHTML: Einbindung von Abfrageergebnissen aus MySQL-Datenbank in WordPress-generierte Webseite
  • Responsive Webdesign (Anpassung der Darstellung an verschiedene Endgeräte):

Die VerbaAlpina-Karte auf einem Samsung S7 Display

Technologie der interaktiven online-Karte

  • Openstreetmap:  „Open Data“ gemäß Open Data Commons Open Database Lizenz (ODbL)
  • JS-Bibliothek Leaflet (vergleichbar mit bzw. Ersatz für Google Maps API)
  • WebGL (Web Graphics Library): JS-Programmierschnittstelle, die die Grafikkarte des Clients verwendet, um Visualisierungen hardwarebeschleunigt zu animieren ⇒ Verzögerungsfreie Animation von Markern auf der VA-Karte bei Zoomvorgängen

API


IT-Team von VerbaAlpina


Bibliographie

  • DRG = Eintrag nicht gefunden
  • Idiotikon = Eintrag nicht gefunden
  • VALTS = Eintrag nicht gefunden
  • AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
  • CNRTL = Centre National de Ressources Textuelles et Lexicales, Nancy, Nancy Université. Link
  • FEW = Wartburg, Walter (1922-1967): Französisches etymologisches Wörterbuch. Eine Darstellung des galloromanischen Sprachschatzes , Basel, vol. 20, Zbinden. Link
  • Georges = Georges, Heinrich (1913-1918): Ausführliches lateinisch-deutsches Handwörterbuch. Aus den Quellen zusammengetragen und mit besonderer Bezugnahme auf Synonymik und Antiquitäten unter Berücksichtigung der besten Hilfsmittel ausgearbeitet, Hannover, Hahnsche Buchhandlung. Link
  • Idiotikon = (1881 ff.): Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch, Basel. Link
  • Jaberg/Jud 1928 = Jaberg, Karl; Jud, Jakob (1928): Der Sprach- und Sachatlas als Forschungsinstrument. Kritische Grundlegung und Einführung in den Sprach- und Sachatlas Italiens und der Südschweiz, Halle (Saale), Niemeyer
  • Lücke/Riepl/Trautmann 2017 = Lücke, Stephan | Riepl, Christian | Trautmann, Caroline (2017): Softwaretools und Methoden für die korpuslinguistische Praxis. Korpus im Text, Bd. 1., München, in: Korpus im Text. Link
  • Treccani = Romani, Luigi: Vocabolario Treccani. Link
  • VALTS IV = Gabriel, Eugen/ Klausmann, Hubert/ Krefeld, Thomas (1991 ff.): Vorarlberger Sprachatlas. Wortgeographie I. Kommentarband, Bregenz, vol. 4