VerbaAlpina – Aspekte der informatischen Konzeption und technischen Realisierung (Zitieren)

Stephan Lücke
(1123 Wörter)

Der folgende Vortrag wurde im Rahmen der Ringvorlesung des BA-Studiengangs Digital Humanities in den Sprachwissenschaften am 14.06.2021 gehalten. Eine Videoaufzeichnung ist online abrufbar (Link).

  • Focus des Vortrags: Aspekte der technischen Realisierung von VerbaAlpina
  • Der fachwissenschaftliche Hintergrund bereits letzte Woche von Beatrice Colcuc und Christina Mutter dargelegt
  • Allerdings: Fachwissenschaft und informatische Methoden sind in den DH so eng miteinander verwoben, dass eine klare Trennung nur schwer möglich ist – Zwei Seiten einer Medaille:

Zwei Seiten einer Medaille: Sprachwissenschaft und Informationstechnik

  • Fachwissenschaften und Informationstechnologie beeinflussen sich wechselseitig
  • Das neue Ganze (= Digital Humanities) ist mehr als die Summe seiner Teile

Wechselseitige Beeinflussung von Fachwissenschaften und Informationstechnologie

  • Im Folgenden werden einige intuitiv ausgewählte Aspekte vorgestellt
  • Zahlreiche Aspekte der technischen Realisierung von VA werden in der Methodologie erläutert:
  • Überschneidungen und Wiederholungen können daher nicht vollkommen ausgeschlossen werden

Übersicht

  • Eckpunkte des Projekts (z. T. Wiederholung)
  • Datengrundlage von VA
  • Zentrale Kategorien des sprachlichen Kernbestands
  • Datenaufbereitung: Transkription
  • Datenvisualisierung: Die interaktive online-Karte
  • VA und die Herausforderungen der Virtualität

Das Projekt

  • kurze Wiederholung: Worum geht es bei VerbaAlpina?
  • Interdisziplinäres DH-Projekt: 2 Sprachwissenschaftler, 2 Informatiker
  • DFG-Förderung seit 2014 bis mindestens 2023
  • VA ein Projekt im Bereich der Geolinguistik: sprachliche Variation vor dem Hintergrund von Raum und Zeit
  • Im Mittelpunkt: Die Lexik – Welche Wörter werden im Alpenraum für ausgewählte Begriffe verwendet?
  • Es geht um Dialektwörter, Nationalsprachen spielen eine untergeordnete Rolle
  • Beschränkung auf Bezeichnungen für „typisch“ alpine  Konzepte (Milch- und Almwirtschaft, Flora, Fauna, traditionelle Küche, Tourismus)
  • Geographischer Rahmen: Die Grenze der Alpenkonvention
  • Sprache und außersprachliche Realität sind folgendermaßen aufeinander bezogen:
Bezeichnung Konzept/Begriff
Butter     
  • Auf den ersten Blick ist diese Zuordnung sehr simpel. Sie erlangt jedoch große Komplexität in dem Moment, in dem man die Dimensionen des Raumes und der Zeit in dieses System einbezieht

  • Konvention: Konzepte werden in VERSALIEN, Bezeichnungen kursiv geschrieben ⇒ BUTTER vs. Butter
  • Informatisch gesprochen: m:n-Beziehung: eine Bezeichnung kann mehrere Bedeutungen haben, für eine Sache/Konzept gibt es mehrere Bezeichnungen
  • Bezeichnungen variieren in Raum und Zeit. Regionale Bezeichnungsvariation am Beispiel von malga:
  • Regionale Verbreitung von Wörtern und ihren Bedeutungen kann sich im Lauf der Zeit verändern
  • Weitere Veränderung über die Zeit: Sprachwandel: lat. lac ⇒ ital. latte, frz. lait
  • Ergebnis: komplexes, vierdimensionales, bewegliches Geflecht von Wörtern und ihren Bedeutungen
  • VerbaAlpina ist VOLLSTÄNDIG digital konzipiert
    • Einsatz von Webtechnologie (WordPress)
    • strukturierte Daten in online-Datenbank (MySQL)
    • Projektpublikationen online

Datengrundlage von VA

  • Datenquellen:
    • Sprachatlanten
    • Wörterbücher mit Informationen über die lokale Verbreitung von Wörtern (Georeferenzierung)
    • Crowd Sourcing
    • Partnerprojekte
  • Wie sieht ein Sprachatlas aus?:

AIS-Karte 1218 „Il siero del formaggio“ (MOLKE; Navigais; vgl. VA-Karte; lita, leyto/u ) ⇒ letie (roa f.))

  • Wie sieht ein georeferenziertes Wörterbuch aus?:

Eintrag Teie(n) im Schweizdeutschen Idiotikon. GrMu. = Mutten, GrKl = Klosters, GrD = Davos, GrChur. = Churwalden

  • Daten aus Sprachatlanten und Wörterbüchern werden von VA strukturiert in einer relationalen Datenbank erfasst
  • Grundschema ist folgende Zuordnung:
Bezeichnung Konzept Georeferenz Chronoreferenz Quelle
painch BUTTER Ardez (10.1399 46.8577) 1928-1940 AIS 1207, 7
Anke BUTTER Malters (8.2514 47.0124) 2962-2003 SDS V 179, LU24

Verschiedene Probleme:

  • Bezeichnung: Viele Quellen, v. a. die Sprachatlanten, liefern nicht-typisierte Daten (z. B. unmittelbare Sprecheräußerungen in phonetischer Transkription) ⇒ Typisierung erforderlich
  • Georeferenz: Quelle gibt entweder zu vage („Tirol“) oder sehr präzise („Bergeralm bei Steinach“) Georeferenz an ⇒ VA-Referenzmatrix sind die politischen Gemeinden innerhalb der Alpenkonvention (einmal festgelegt; keine Aktualisierung)
  • Chronoreferenz: bislang nur mittelbar über die Publikationsjahre der Datenquellen (Sprachatlanten, Wörterbücher, Crowdsourcing) möglich
  • VA Datenbank zwischenzeitlich deutlich komplexer: aktuell 140 Tabellen, 18 Views, 25 Funktionen, 47 Prozeduren, 5 Trigger

Datenstruktur: Zentrale Kategorien des sprachlichen Kernbestands

  • VA unterscheidet:
  • morpholexikalische Typen: Leitkategorie der Verwaltung der sprachlichen Daten
    • ein morpholexikalischer Typ ist definiert durch:
      • Sprachfamilie,
      • Orthographie,
      • Wortart,
      • Genus,
      • Affigierung,
      • Basistyp;
  • Einzelbelege: (meist) konkrete Sprecheräußerung mit phonetischen Spezifika
  • Phonetische Typen: Zusammenfassung der phonetischen Charakteristika einer Vielzahl von Einzelbelegen
  • Basistypen: Vorstufe eines morpholexikalischen Typen (Beispiel: lat. salamandra als Vorstufe von ital. salamandra und deu. Salamander; die Zuweisung eines „Basistyps“ zu einem Morpholexikalischen Typen stellt lediglich einen offenkundigen, grundsätzlichen Zusammenhang zwischen beiden fest, sagt aber nichts über die konkrete  Art  dieses  Zusammenhang  aus:
  • Beispiel Butter:
    • Sprachfamilie: Germanisch, Orthographie: Butter, Wortart: Substantiv, Genus: feminin, Basistyp: lat. Butyrum (VA-ID: L565)
    • Sprachfamilie: Germanisch, Orthographie: Butter, Wortart: Substantiv, Genus: maskulin, Basistyp: lat. Butyrum (VA-ID: L566)
    • Sprachfamilie: Germanisch, Orthographie: Butter, Wortart: Substantiv, Genus: neutrum, Basistyp: lat. Butyrum (VA-ID: L567)
  • Zuweisung von Einzelbelegen und phonetischen Typen zu einem morpholexikalischen Typen am Beispiel des Morphtyps „Butter, gem, f.“ (VA-ID L565),

Typisierungsprinzip

Datenaufbereitung: Transkription

  • Problem: Erfassung von Daten speziell aus Sprachatlanten

  • Dort verwendete Transkriptionssysteme ([Bibl:AIS]: Böhmer-Ascoli) zumindest teilweise nicht in Unicode kodiert:

Die Unicode-Blöcke mit phonetischen Zeichen (Link)

  • Selbst wenn: Erfassung mit Standardtastaturen sehr umständlich und fehleranfällig, Lösung: sog. Betacode:

Transkription „exotischer“ Schriftzeichen mit einer deutschen Standardtastatur („Betacode“)

  • Kernidee übernommen vom Thesaurus Linguae Graecae (TLG) – Beispiel (TLG-Link [Login erforderlich]):

Μῆνιν ἄειδε, θεά, Πηληϊάδεω Ἀχιλῆος,
οὐλομένην, ἣ μυρί’ Ἀχαιοῖς ἄλγε’ ἔθηκεν,

         ⇓

*MH=NIN A)/EIDE, QEA/, *PHLHI+A/DEW *)AXILH=OS,
OU)LOME/NHN, H(\ MURI/‘ *)AXAIOI=S A)/LGE‘ E)/QHKEN,

  • Betacode: Entwickelt Ende der 1970er Jahre von David Woodly Packard für den TLG
  • Betacode ursprünglich nur für Altgriechisch, später auch für andere Schriftsysteme, z. B. Hebräisch (Link)
  • Übertragung in andere Schriftsysteme durch automatische Ersetzung auf Basis von Codepages. Beispiel aus dem AIS:

Manuelle Erfassung in Betacode und automatische Umsetzung nach IPA

  • Potentielles Problem: Informationsverlust durch Inkongruenzen bezüglich abbildbarer phonetischer Granularität

Zuordnungsversuch von Teuthonista-Graphemen in das IPA-Vokaltrapez

  • Einsatz von OCR grundsätzlich möglich; Beispiel: Zuweisung der HTML-Entity θ zum griechischen Buchstaben Theta:

Dialogfeld des kommerziellen OCR-Programms Abbyy Finereader. Zuweisung des Theta zur HTML-Entity θ (03B8 ist der entsprechende Unicode Codepoint)

Dialogfeld von Abbyy Finereader mit Übetragung eines griechischen Texts in HTML-Entities

  • Analog zum o. a. OCR-Verfahren könnten auch phonetische Schriftzeichen der Sprachatlanten automatisch in ASCII-Zeichenfolgen umgesetzt werden

Übertragung eines [Bibl:AIS]-Lauts in Betacode mittels OCR (Theorie)

FineReader-Patterns für OCR von AIS-Zeichen (Filip Hristov)

  • Problem jedoch speziell bei Sprachatlanten: Zuordnung von Schrift zu Erhebungspunkten:

Attributionsaufgabe im Zooniverse-basierten Crowdsourcing-Tool von VerbaAlpina

Datenpräsentation

Online-Karte

  • zentrales Visualisierungsinstrument: Interaktive online-Karte
  • Funktionsbereiche:
    • Datenselektion (semasiologisch *und* onomasiologisch; ergänzende Daten wie etwa „raetische Inschriften“ ⇒ Parameter für die Verbreitung der raetischen Sprache ⇒ interessant für Substratforschung [möglicher Ursprung moderner Lexeme im raetischen])
    • SQL: Direkte Eingabe von SQL-Abfragen, z. B.: „finde alle Einzelbelege des morpholexikalischen Typs ‚Butter‘, die mit einem ‚P‘ (statt mit einem ‚B‘) beginnen
  • Demo anhand des Konzepts „BUTTER“
  • Quantifizierende Darstellungen

Lexicon Alpinum

API

  • API: „application programming interface“ ‚Anwendungsprogrammierschnittstelle‘
  • API von VerbaAlpina

VA und die Herausforderungen der Virtualität

Zu diesem Thema s. den https://www.verba-alpina.gwi.uni-muenchen.de/?p=14940

 

Ich danke für die Aufmerksamkeit!

***