Archiv des Autors: Stephan Lücke

This post was not versioned, yet. It can only be accessed within the current working version.

Partielle Transkription des Vortrags „Offene Lizenzen – ein Werkstattbericht zu den rechtlichen Herausforderungen im Jahr 2015“ von Thomas Hartmann (Zitieren)

Stephan Lücke
(1093 Wörter)

Transkription von Hartmann 2015

Rot = fehlende […] oder womöglich falsche (?) Transkriptionspassagen

>> Minute 13:06
Das Problem besteht mit diesen beiden Lizenzbedingungen, die insbesondere im geisteswissenschaftlichen Bereich – aber auch sonst – von allen Beteiligten aus verschiedenen Motiven heraus […]. Nämlich: Intuitiv sagen viele „wir wollen eine wirtschaftliche Nachnutzung erlauben“ und zweitens „wir wollen auch eine Bearbeitung erlauben“. Erstens: Sie sehen, es ist nicht compliant zu Open Access im Rahmen der Berlin Declaration. Das heißt, wenn Sie Förderplätze, Fördergeber, Publikationsfonds, was auch immer haben und ich wäre derjenige, der das juristische Assessment zu machen hat, ob Sie sich an die Vorgabe halten Relativ einfache […]: Nein, sie halten sich nicht daran. Also kein Open Access. Weder Open Access mehr als Zugang, sondern Zugang und umfassende Nachnutzungsmöglichkeiten. Das ist die eine Regelung. Jetzt mag’s da trotzdem Zusammenhänge geben, wo Sie aus hoffentlich guten Gründen diese NC/ND-Klausel wählen und dann wär‘s ja mein Job zu sagen „die funktionieren“ und ich kann Ihnen sagen, es ist in der Juristerei ein ganz großes Problem und ich habe Ihnen dazu einen sehr aktuellen und spannenden Fall mitgebracht: Da geht es darum, dass das Deutschlandradio, ich wiederhole, das Deutschlandradio, von Flickr ein Foto genommen hat, um damit einen Textbeitrag auf deutschlandradio.de zu illustrieren. Dieses Foto war lizenziert unter CC BY NC (Non Commercial, NC). Vielleicht können wir auch gleich eine Abstimmungs-Probe machen? Das Deutschlandradio, macht das eine kommerzielle Nutzung? Wer meint „ja“, den bitte ich, sich jetzt zu melden. Das Deutschlandradio. Wer sagt „nein, das Deutschlandradio macht keine kommerzielle Nutzung?“ […] Um es kurz zu machen: Ich weiß es auch nicht, ja. Und jetzt kommt’s noch schlimmer: Im Universitätsalltag und selbst bei Max Planck – die ja […] 100% öffentlich finanziert sind, wir sind laufend in Partnerschaften, Fördervereinen usw. und ich kann Ihnen nicht sagen „wo beginnen kommerzielle Nutzungen, wo enden die?“ Wo ich aus Verlagssicht – und das hört man, wenn man bei Anhörung des deutschen Bundestags ist – ausgesprochen und unausgesprochen immer wieder: Wovor haben Rechteinhaber/Verleger regelmäßig Sorge? In Wahrheit nicht vor den Fördervereinen, sondern vor…Den Internetgiganten! Ja, also Google und Co. als kommerzielle Nutzungen. Das ist die Sorge von auch Verlagsverbänden/Rechteinhabern, aber die Be..duldungen?, die hier gebracht werden, die sind kaum beantwortbar. Nun ist es so: Ich kann Ihnen hier eine Antwort eines Gerichtes mitteilen, denn der Fotograf hat tatsächlich geklagt und – Achtung! Das sollten Sie sich auf der Zunge zergehen lassen – das Landgericht Köln hat zunächst die geantwortet auf die Frage „Was ist eine kommerzielle Nutzung im Sinne von CC?“: „Es ist darunter eine rein private Nutzung zu verstehen“. Sie können sich jetzt selbst ausdenken, was das für wissenschaftliche Nutzungen heißt. Nur eine rein private Nutzung. Das Deutschlandradio hat dann dankenswerterweise das zur nächsten Instanz gebracht. Das Oberlandesgericht, das hat dann etwas differenzierter geschaut, aber auch hier zunächst die klare Aussage „Nur, weil das Deutschlandradio nicht gewinnorientiert arbeitet oder arbeiten muss, heißt das nicht, dass es schon nicht kommerziell ist. Man muss eine Gesamtbewertung machen“ usw. usw. Das ist ganz interessant, und zwar haben wir gestern gehört, Urheberschutz bedeutet ja „im Zweifel zugunsten des Urhebers“, in dubio pro autore, ja. Hier wurde es umgedreht: Die Zweifel gehen zu Lasten des Urhebers und begründet hat man das mit AGB. Ja, dieser CC-Lizenzvertragstext ist AGB-Recht. Ich werde Ihnen gleich noch eine weitere Crux zeigen, warum jetzt das Deutschlandradio trotzdem nicht Recht bekommen hat. Als Zwischenfazit möchte ich nur zu dieser – insbesondere in den Geisteswissenschaften – sehr beliebten Non Commercial-Klausel Ihnen mitgeben, und ich beschäftige mich seit Jahren jeden Tag mit diesen Problemen: Es gibt erhebliche Auslegungs-Probleme und die führen dazu, dass erwünschte Nutzungen nicht stattfinden, weil wir Juristen im Zweifel dann eben davon abraten müssen. Abgesehen davon, Open Access Compliant mit der Berlin Declaration ist es auch nicht.
>> Minute 18:39

So, weiter mit einer Aufgabe für Sie, meine sehr geehrten Damen und Herren: Sie sehen auf der rechten Seite das Originalbild. Ich weiß auch nicht so recht, was das Original […], aber das ist das Originalbild vom Fotografen, so wie es auch bei Flickr eingestellt war und links sehen Sie das Bild, so wie es auf Deutschlandradio in diesem redaktionellen Zusammenhang veröffentlicht war. Können Sie erkennen, wo nun hier der Vorwurf gemacht werden kann? Jenseits dieser kommerziellen/nicht kommerziellen Verwendung. Was kann man hier als Fotograf noch dem Deutschlandradio vorwerfen? Und das ist tatsächlich das Original, also der originale Sachverhalt.
[Plenum antwortet]
Was könnte denn noch […]? Damit Sie nur mal sehen, woher man kommt und wohin das jetzt geht.
[Plenum antwortet]
Vollkommen richtig. Die Kollegin sagt: „Dieses Ausschneiden bei der Vergrößerung ist eine Bearbeitung“. Das ist richtig. Jetzt haben wir nur, aus Sicht des Deutschlandradios erfreulicherweise die Geschichte, dass die Lizenz ja war „CC BY Non Commercial“. Das heißt aber auch: „Bearbeitungen sind erlaubt“. Ansonsten […] die Bestimmung heißt „CC BY und ND“. Das hätte der Fotograf auch machen können, hat er aber gerade nicht gemacht. Weitere Vorschläge? Sie müssen etwas […] ausholen, aber das geht genau in das, was eben sehr wichtig ist. Gucken Sie nochmal aus der Sicht des Fotografen. Jemand meldet sich. Bitte? Plenum spricht.
Richtig. Also, nochmal zur Wiederholung […]: Es gibt eine sehr strenge Vorgabe, wie ich zu zitieren habe, nämlich genau so, wie es der Urheber möchte und angebracht hat. Und die Auflösung sehen Sie hier unten (zeigt auf das rechte Bild). Hier hatte nämlich der Fotograf, mit dem Copyright-Symbol, sein Urheber-Vermerk angebracht und das Deutschlandradio hat es zu diesem Copyright-Vermerk gemacht (zeigt auf das linke Bild), wie Sie hier unten sehen. Nach meinem unjuristischen Verständnis, meine Damen und Herren, hat das Deutschlandradio den Copyright-Vermerk eher vergrößert und deutlicher gestaltet. Also eigentlich, zunächst mal, vorbildlich […]. Aber, Sie erinnern sich, der Urhebervermerk muss genau so in dieser Form beibehalten werden, wie der Urheber das gemacht hat und möchte. Das heißt, Auflösung tatsächlich: Hier war der Copyright-Vermerk und der ist verändert worden. Das verstößt gegen eben diese Vorgabe, dass man genau so zu zitieren hat, wie der Urheber sein Urhebervermerk angebracht hatte und damit liegt ein Lizenzverstoß vor und jedenfalls bisher, wenn man gegen eine verstößt, gegen eine Vorgabe der CC-Lizenz verstößt, wird die komplette CC-Lizenz unwirksam, es kommt wieder zum Grundprinzip „All rights are reserved“ und das Ergebnis ist das Gleiche, nämlich die Rechtsverletzung liegt vor. Das heißt, viele der Fragen und der Sorgen auch, CC heißt „man muss nicht mehr genannt werden“ – nein, es ist genau andersrum. Ich empfinde es auch persönlich als Autor eine gute Möglichkeit genau anzugeben, wie ich zitiert werden möchte und ich weiß auch, dass ich das genau so durchsetzen kann.
<< Minute 23:56 – Ende

 

transcr. Laura Höpfl


Bibliographie

  • Hartmann 2015 = Eintrag nicht gefunden

iframe-test (Zitieren)

Stephan Lücke
(0 Wörter)

Inhalt der DataCite-XML-Datei von VerbaAlpina (Zitieren)

Stephan Lücke
(781 Wörter)
<?xml version="1.0" encoding="UTF-8"?>
<resource xmlns="http://datacite.org/schema/kernel-4" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4/metadata.xsd">
<identifier identifierType="DOI">http://dx.doi.org/10.5282/verba-alpina</identifier>
<titles>
<title titleType="Title">VerbaAlpina</title>
<title titleType="Subtitle"> Der alpine Kulturraum im Spiegel seiner Mehrsprachigkeit</title>
</titles>
<creators>
<creator>
<creatorName>Thomas Krefeld</creatorName>
<givenName>Thomas</givenName>
<familyName>Krefeld</familyName>
<affiliation>Ludwig-Maximilians-Universität München, Institut für Romanische Philologie</affiliation>
</creator>
<creator>
<creatorName>Stephan Lücke</creatorName>
<givenName>Stephan</givenName>
<familyName>Lücke</familyName>
<affiliation>Ludwig-Maximilians-Universität München, IT-Gruppe Geisteswissenschaften</affiliation>
</creator>
</creators>
<publisher>Institut für Romanische Philologie, IT-Gruppe Geisteswissenschaften</publisher>
<publicationYear>2014-</publicationYear>
<resourceType resourceTypeGeneral="Collection">Online-Portal</resourceType>
<subjects>
<subject z.B.: GND="DDC" z.B. bei GND: http://d-nb.info/gnd/="https://d-nb.info/1052700705/34" z.B. bei GND-Nummer: 118544233="400">Sprache</subject>
<subject z.B.: GND="DDC" z.B. bei GND: http://d-nb.info/gnd/="https://d-nb.info/1052700705/34" z.B. bei GND-Nummer: 118544233="000">Informatik</subject>
</subjects>
<dates>
<date dateType="Created">2014</date>
</dates>
<relatedIdentifiers>
<relatedIdentifier relatedIdentifierType="URL">https://www.verba-alpina.gwi.uni-muenchen.de/</relatedIdentifier>
</relatedIdentifiers>
<descriptions>
<description descriptionType="Abstract">Das Projekt erschließt den einzelsprachlich und dialektal stark fragmentierten Alpenraum in seiner kultur- und sprachgeschichtlichen Zusammengehörigkeit selektiv und analytisch und überwindet dadurch die traditionelle Beschränkung auf im wesentlichen aktuelle politische Einheiten (Nationalstaaten). Die ausgewählten Sachgebiete betreffen die Natur, die Kulturgeschichte und die kulturelle Gegenwart. Dazu wird unter Verwendung zeitgemäßer Medientechnologie (Datenbank, Georeferenzierung, Internet, social software) eine umfassende, einzelsprachübergreifende Forschungsumgebung mit mehreren Funktionsbereichen aufgebaut: Sie dient der Dokumentation (interaktive georeferenzierte Kartographie), der Datenerhebung (durch social software), der Publikation und ihrer eigenen kollaborativen Weiterentwicklung; damit wird ein Modell für die Überführung der Geolinguistik in die digital humanities entwickelt. Die leitende Absicht besteht darin, bereits vorliegende (und teils schlecht zugängliche) Sprachatlas- und Wörterbuchdaten in vervollständigter, gebündelter, mehrdimensional aufbereiteter und sprachgeschichtlich analysierter Form zugänglich zu machen. Durch die Vervollständigung (Neuerhebung mit Hilfe von social software) werden der ungleichmäßige Belegraster der Datenaltbestände ausgeglichen und ihre semantischen und onomasiologischen Inkonsistenzen überwunden. So integriert das Projekt die beiden dominanten, methodologisch alternativen Ansätze der digitalen Geolinguistik, nämlich die an der sprachgeographischen Tradition orientierte Dokumentation einerseits (vgl. ALD-I, ALD-II) und die Neuerhebung durch Crowdsourcing andererseits (vgl. AdA, ALIQUOT) in einem umfassenden Rahmen. VerbaAlpina wird durch zahlreiche Kooperationspartner unterstützt. Das Projekt wendet sich in erster Linie an die wissenschaftliche Öffentlichkeit; entsprechend fachlich sind die erklärenden Texte unter dem Reiter METHODOLOGIE angelegt. Vor allem die zentrale Funktion unter dem Reiter INTERAKTIVE KARTE ist jedoch für jedermann leicht zugänglich. Interessierten Laien wird daher empfohlen, sich zunächst mit diesem Angebot vertraut zu machen: Die Suchfilter sollten sich trotz der vielleicht ungewohnten Terminologie beim Ausprobieren weitgehend selbst erklären.</description>
</descriptions>
<geoLocations>
<geoLocation>
<geoLocationPlace>Alpenraum</geoLocationPlace>
<geoLocationBox>
<westBoundLongitude>5.2</westBoundLongitude>
<eastBoundLongitude>16.9</eastBoundLongitude>
<southBoundLatitude>43.5</southBoundLatitude>
<northBoundLatitude>48</northBoundLatitude>
</geoLocationBox>
</geoLocation>
</geoLocations>
<Die Sprache, die bei Ihrer Ressource überwiegt (vorzugsweise nach ISO 639-1), z.B.: de>German, Italian, French, Slowenian, Rumantsch-Grischun</Die Sprache, die bei Ihrer Ressource überwiegt (vorzugsweise nach ISO 639-1), z.B.: de>
<sizes>
<size>10 GB</size>
</sizes>
<formats>
<format>SQL, CSV, HTML, PHP, JPG, ...</format>
</formats>
<version>18/1</version>
<rightsList>
<rights Ergänzend dazu empfiehlt sich hier eine Verlinkung auf die entsprechende Rechte-Seite, z.B.: http://creativecommons.org/licenses/by/3.0/de="http://creativecommons.org/licenses/by-sa/3.0/de/">CC BY-SA 3.0 DE</rights>
</rightsList>
<fundingReferences>
<fundingReference>
<funderName>DFG</funderName>
<funderIdentifier funderIdentifierType="GRID">grid.424150.6</funderIdentifier>
<awardNumber Bei der DFG z.B.: http://gepris.dfg.de/gepris/projekt/388226599="http://gepris.dfg.de/gepris/projekt/253900505">253900505</awardNumber>
<awardTitle>Langfristvorhaben</awardTitle>
</fundingReference>
</fundingReferences>
</resource>

Takeover des Instagramchannels der LMU (Zitieren)

Stephan Lücke
(95 Wörter)

Text der Videos von SL:

Video SL 1

Der Mehrwert von VerbaAlpina besteht in der vollständigen und konsequenten Umstellung der Dialektologie auf Digitalität und Webtechnologie. Sogenanntes Crowdsourcing im Internet ermöglicht uns, von Dialektsprechern im Alpenraum neue Dialektwörter zu sammeln. Ihr wollt mitmachen? Dann geht auf unsere Website!

Video SL 2

Die Idee zu VerbaAlpina? Sie kam uns auf einer Tour auf die Zugspitze. Wir hatten uns vorher bereits jahrzehntelang mit Dialektologie beschäftigt, wir wussten, dass die Sprachwissenschaft den Alpenraum nie als Gesamtheit betrachtet hat, sondern nur in seiner politischen, sprachlichen und kulturellen Zersplitterung. Das wollten wir ändern.

(Unsere) Prinzipien der virtuellen Geolinguistik (Präsentation) (Zitieren)

Stephan Lücke
(2998 Wörter)
Diese Präsentation wurde für den Workshop Neue Wege der romanischen Geolinguistik Vers. 2.0 (2021) verfasst (Schneefernerhaus, 4.-5.11.2021). Für die Einladung mitzumachen danken wir Joachim Steffen (Augsburg). Eine ausformulierte Version des Beitrags ist unter folgendem Link verfügbar: https://www.verba-alpina.gwi.uni-muenchen.de/?p=17197


Übersicht

I. Vorgeschichte: Drei Generationen von Sprachatlanten (🎙 TK)
II. Unsere 8 Prinzipien für die dritte Generation:

1. Strukturierte digitale Daten als Arbeitsgrundlage (🎙 SL)
  2. Bezug der sprachlichen Daten zu außersprachlichen Normdaten (🎙 TK)
3. Forschungsdatenmanagement (FDM) (🎙 SL)
  4. Adressierung und interaktive Einbindung eines breiten Publikums (🎙 TK)
5. Offene und dynamische Datenbestände (🎙 SL)
  6. Virtuelle Kartographie auf georeferenzierter Grundlage (🎙 TK)
7. Möglicher Einbezug nicht sprachlicher Kontextdaten (🎙 SL)
  8. Überwindung der Gattungsgrenzen (🎙 TK)

Appendix

  • Ein Beispiel für Aggregation und Gattungsverschränkung (🎙 TK)
  • Eckpunkte der technischen Umsetzung (🎙 SL)
  • Die IT-Gruppe Geisteswissenschaften (🎙 SL)

Vorgeschichte: Drei Generationen von Sprachatlanten

Vorgestellte Prinzipien Ergebnis von 16 Jahren gemeinsamer Arbeit an vier gemeinsamen geolinguistischen Projekten:

  • AsiCa – Atlante sintattico della Calabria
  • ASD – Audioatlas Siebenbürgisch-Sächsischer Dialekte
  • Metropolitalia
  • VerbaAlpina

Unterschiede ...

  • in der Modellierung räumlicher Variation;
  • im Verständnis der Repräsentativität sprachlicher Daten vor dem Hintergrund der selektierten Informanten, Orte und Elizitationsverfahren;
  • in der medialen Konzeption und Realisierung.

Drei Generationen von Sprachatlanten:

Erste Generation:

  • eindimensional 
  • Dem Axiom des repräsentativen Einzelinformanten verpflichtet
  • das prototypische Beispiel: der AIS

Zweite Generation:

  • pluridimensional
  • untersucht die räumliche Variation in mehreren Dimensionen; die Abhängigkeit der sprachlichen Daten vom Sprecher und von der Art der Elizitation rückt ins methodologische Zentrum der Arbeit.
  • prototypisch: ADDU.

Dritte Generation:

  • (idealerweise) Konzeption nach Art von zweiter Generation + konsequenter Einsatz von Webtechnologie
  • sprachwissenschaftlicher und medialer Aspekt untrennbar miteinander verflochten: die Entstehung dieses Paradigmas nicht nur wissenschaftsintern zu sehen, sondern unter Voraussetzung des informationstechnischen Fortschritts (vgl. Wissenschaftskommunikation im Web)
  • Beispiel: VerbaAlpina

  • auch in der technischen Phase von Generation 3 teilweise nicht konsequente Nutzung der Möglichkeiten. Beispiel: Online-Atlas VIVALDI folgt konzeptionell der Generation 1
  • Generation 3 verlangt vollständige und konsequente Digitalisierung
  • unsere eigenen Projekte am Übergang von Generation 2 zu 3:
2. Generation   3. Generation
AsiCa  Asica 2.0
ASD
  Metropolitalia
  VerbaAlpina
geolinguistische Projekte der Autoren
  • VerbaAlpina illustriert prototypisch und exemplarisch Anforderungen und Umsetzung eines geolinguistischen Projekts der Generation 3.

II. Unsere 8 Prinzipien für die dritte Generation

1. Strukturierte digitale Daten als Arbeitsgrundlage

  • Für die elektronische Datenanalyse und -visualisierung müssen die Daten digital und v. a. strukturiert sein
  • Wir unterscheiden mehrere Digitalisierungsgrade:
Grad der
Digitalisierung
Etikett., Erweit., Verknüpf. Daten-
export
D3 Tabelle db
csv
strukturierter elektronischer Text XML
SQL
CSV
txt
...
HTML
PDF
PS
Papier
D2 ↑ Textdatei txt
doc
linearisierter elektronischer Text ← praat
D1 ↑ Scan jpg binärer Code wav, mp3
D0 ↑ Papier Schrift/Bild Audio
  • Projekte der Generation 3 → Digitalisierungsgrad 3

  • Datenerfassung: Daten ggf. digitalisieren und strukturieren bzw. re-strukturieren
  • Strukturierung orientiert an projektspezifischen Kategorien (= Metadaten)
  • Text: Digitalisierung durch Scannen und OCR
  • Audio [bei VerbaAlpina bislang irrelevant]: ASR (automatic speech recognition; STT: speech to text) oder abtippen (Praat) ⇒ elektronischer Text (ASR bislang nur bei Standardsprache brauchbar)
  • Beispiel für Datendigitalisierung und -strukturierung:
Daten analog Daten digital Daten digital und strukturiert
tˈeːʥɑ
Typ Quelle Ort Bedeutung
tegia AIS Ems SENNHÜTTE

Beleg: AIS 1192 (LA CASCINA DI MONTAGNA), Ort 5 (Ems) (VA-Beleg S293; Discover@UB)

  • Automatisierung variiert je nach Quelle/Vorlage und ist bestenfalls partiell möglich
  • VerbaAlpina-Quellen liegen in unterschiedlichen Digitalisierungsgraden und Strukturen vor. Beispiele:
strukturiert ASLEF-Tafeln VerbaAlpina
nicht/teil- strukturiert VALTS Idiotikon, WBOe
analog digital
  • Gegebene Strukturierungen verlangen häufig eine Umstrukturierung: Struktur A ⇒ Struktur B.
  • Je nach Strukturierungs- und Digitalisierungsgrad gestaltet sich die Datenerfassung mehr oder weniger aufwendig.
  • Optimal für Datenaustausch, Vernetzung und Nachnutzung: sog. APIs.
  • APIs in lexikographischen online-Ressourcen bislang selten
  • Beispiel für API: "Digitales Wörterbuch der Deutschen Sprache" (DWDS; API: https://www.dwds.de/d/api) (für VerbaAlpina von nachrangiger Bedeutung).
  • VerbaAlpina-API: https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=8844&db=211.

Einige Beispiele für VA-Quellen

  • ASLEF-Tafeln

Tafel 45 des ASLEF: unter jedem Konzept eine Liste der ortstypischen Bezeichnungen; vor den Einzelbelegen die Kennzahlen der jeweiligen Ortschaften.

  • OCR möglich
  • transparente Strukturierung
  • ⇒ teilautomatische Erfassung möglich, aber nicht realisiert wegen hohem Aufwand – manuell schnelle

  • Vorarlberger Sprachatlas mit Einschluss des Fürstentums Liechtenstein (VALTS)

Karte IV 73 des VALTS: Mischung

  • Georeferenzierung durch kartographische Abbildung der Daten
  • Unterschiedliche Informationskodierung (Symbole, Farbe)
  • Vermischung von Belegen unterschiedlicher Kategorien (Typen [z. B. Tieie], Einzelbelege)
  • Dokumentation unterschiedlicher Konzepte (SENNHÜTTE, SENNEREIRAUM [= Teil der Hütte], KÄSEKELLER, PRIMITIVE SENNHÜTTE AUF MAIENSÄSSEN)
  • ⇒ Automatisierte Erfassung unmöglich

Beispiel für ein Wörterbuch: Schweizerdeutsches Idiotikon

  • Verteilung von VerbaAlpina-relevanten Entitäten im Fließtext
  • Automatisierung auch hier de facto nicht möglich
  • ⇒ manuelle Erfassung

Ein positives Beispiel ist das Bibl:WBOe.

Digitalisierung der analogen Handzettel durch das Projekt WBOE. Nach einer Zwischenstation mit TUSTEP liegt das Material jetzt im XML-Format vor.


VerbaAlpina-Tools zur Digitalisierung und strukturierten Datenerfassung

  • Transkriptionstool (Link)

Das Transkriptionstool von VerbaAlpina

  • gesteuerte Datenerfassung: Tool gibt vor, welche Daten zu erfassen sind
  • Metadaten werden z. T. (Quelle, Erhebungspunkt/Informantennummer) automatisch angelegt
  • ⇒ Förderung von systematischem Vorgehen
  • ⇒ Reduktion von Fehlern
  • Transkription im sog. Betacode (ohne Sonderzeichen ⇒ Standardtastatur nutzbar)
  • ⇒ keine Spezialkenntnisse für Transkription nötig
  • Durchführung durch Hilfskräfte

Typisierungstool (Link)

Das VerbaAlpina-Tool zur Typisierung von Daten aus analogen Quellen. Das Beispiel zeigt im oberen markierten Feld eine Reihe von transkribierten Einzelbelegen der AIS-Karte 1218_1, "IL SIERO DEL FORMAGGIO; IL SIERO DELLA RICOTTA", die dem lexikallischen Typ lacciata (f.) (roa.) zugeordnet werden können.

  • Zuweisung von aus den Quellen erfassten Sprachdaten zu lexikalischen Typen
  • systematisches Vorgehen
  • Verwaltung (Neuanlage, Modifizierung) von lexikalischen Typen
  • Typisierung durch graduierte Sprachwissenschaftler

Georeferenzierungen

  • essentiell für VerbaAlpina – Sprachdaten OHNE Georeferenz nutzlos
  • Referenzmatrix von VerbaAlpina: politische Gemeinden im Alpenraum ...
  • ... mit Stand von etwa 2015
  • Matrix wird NICHT aktualisiert (Auflösung, Neuschaffung von Gemeinden bleiben unberücksichtigt)
  • Georeferenzen sind im Koordinatenbezugssystem WGS84 gespeichert
  • Für jede Gemeinde: Polygondaten der Gemeindegrenzen UND Punktkoordinaten des geometrischen Mittelpunkts der Gemeindeflächen
  • Grundlage für Visualisierung auf interaktiver online-Karte
  • Individuelle, gemeindunabhängige Punktreferenzierungen sind möglich (fast metergenau) → Anreicherung durch Toponyme möglich
  • Quellen geben Georeferenzen in unterschiedlicher Weise und Genauigkeit an.
  • ⇒ Individuelle Abbildung auf VA-Referenzmatrix nötig
  • Beispiele für Angabe von Georeferenzen in einigen VA-Quellen:

Ortsnetze des DRG, GPSR und VSI (interaktives Original)

  • Problematisch in dieser Hinsicht:  Idiotikon: manche Ortsabkürzungen nicht eindeutig auflösbar, manche Gemeinden nicht identifizierbar, die Gemeindezuordnung etlicher Orte hat sich durch politische Reorganisation verändert usw.

  • Ein Blick in die VA-Datenbank (Partner-Schnittstelle vap_de; Link [nur für Partner])

Die VerbaAlpina-Datenbankschnittstelle für Partner


2. Bezug der sprachlichen Daten zu außersprachlichen Normdaten

  • sprachliche Daten sind stets auf die außersprachliche Wirklichkeit bezogen
  • Butter ⇒ BUTTER
  • Dadurch werden Semasiologie und Onomasiologie scharf getrennt. – Vgl. die Konzeptsuche:

Onomasiologische Konzeptsuche in VA

Integration externer Normdaten in einem Belegfenster der Online-Karte

  • Integration der VerbaAlpina-Daten in das Semantic Web → Export als RDF-Triple (in Vorbereitung)
  • Neuerdings: Einbindung auch *sprachlicher* Normdaten: L-IDs des Wikidata-Projekts Beispiel (Tooltip öffnet sich bei Mouseover über Morphtypen; online-Version):

Einbindung von Wikidata-L-IDs in das Infowindow der VerbaAlpina-Karte

  • in Planung: Export der von VA gesammelten Sprachdaten in die Lexikographie-Sektion von Wikidata (Beispiel für eine SPARQL-Abfrage: Lexeme, die eine Farbe bezeichnen)

3. Forschungsdatenmanagement (FDM)

  • Volldigitalisierung nach Generation 3 verlangt Konzept für langfristige Bewahrung
  • "Forschungsdatenmanagement" als Label
  • Orientierung an den FAIR-Kriterien, letztlich forschungsethische Leitkriterien:
    • findable
    • accessible
    • interoperable
    • reusable
  • vgl. Lücke, Krefeld/Lücke 2020 und Krefeld 2018 g
  • Konsequenz: Einhaltung der Open Access und Open Source-Richtlinien und Verzicht auf die Entwicklung und den Einsatz proprietärer Werkzeuge ⇒ CC BY-SA Lizenzen
  • Kontakt zu FDM-Institutionen:
    • UB der LMU (Bibliotheken als idealer Partner: unbefristet existent, kompetent, verlässlich)
    • FDM-Projekt GeRDI (Motto: "Glanz und Elend der Projekte")
    • FDM-Projekt eHumanities – interdisziplinär
  • Workflow für Datenexport zur UB fertig
  • VerbaAlpina-Daten abrufbar über Discover (bislang nur Versionen 191 und 192):

Portal "Discover" der UB der LMU. Das System erlaubt u. a. die Erzeugung von DOIs, die auf einzelne morpholexikalische Typen von VerbaAlpina verweisen.

  • VerbaAlpina gliedert sich in mehrere Teile: Kerndatenbestand (= Sprachdaten), diskursive und analytische Texte, Mediendateien, Software (Code)
  • Problematisch vor allem: Webportal (Betrieb nach Projektende prekär)

Nachhaltigkeitskonzept von VerbaAlpina

4. Adressierung und interaktive Einbindung eines breiten Publikums (Crowdsourcing)

  • gegenüber Buchpublikation verändertes Publikum (Buch: Fachwelt; Web: Fachwelt, Laien, u. a. Sprechergemeinschaften)
  • Erläuterungen für Laien z. T. durch Informationsfenster, die sich öffnen, wenn der Mauspfeil darauf bewegt wird (so genannte Tooltips). Beispiel:

    Beispiel für einen Tooltip (interaktives Original)

  • Andere Voraussetzung: Webpublikation nie abgeschlossen ⇒ Interaktion und Aktualisierung

mehrfache aktive Einbindung der Nutzer:

  • Jeder (Experten und Laien) kann beitragen (vgl. https://www.verba-alpina.gwi.uni-muenchen.de/en/?page_id=1741):
    • sprachliche Formen
    • fehlende Konzepte
  • Nutzer, die Belege/Konzepte beisteuern,  können sich registrieren und so für das Projekt erreichbar bleiben; das ist nützlich für eventuelle Rückfragen. #wieviel % machen das?#
  • Jeder Nutzer kann interaktiv durch Kombination beliebiger Inhalte synoptische Karten generieren, fixieren und zur Veröffentlichung vorschlagen. Diese Vorschläge werden jedoch nicht automatisch allgemein zu Verfügung gestellt, sondern vorher durch die Projektverantwortlichen geprüft.
  • direkte Kontaktaufnahme: über die Social Media-Auftritte des Projekts und über E-Mail-Adressen (vgl. Home).
  • Wissenschaftliche Partnerprojekte können beliebig viele relevante Daten liefern und in einer eigenen Datenbank, die Teil der Projektarchitektur ist, hosten.

5. Offene und dynamische Datenbestände

  • VA-Daten von Anfang an öffentlich zugänglich
  • Projektfortschritt allgemein sichtbar (Livedaten)
  • Offene Lizenz: CC BY-SA
  • Nachnutzung: Atlas pan-picard informatisé (Link)

VA-basierte online-Karte des "Atlas pan-picard informatisé"

  • Veränderung des Datenbestands problematisch für empirische Verlässlichkeit
  • Lösung: Versionierung zweimal jährlich (Jahresmitte und Jahresende)
  • Unterscheidung zwischen Arbeitsdatenbank (Suffix "xxx") und "eingefrorenen" Versionen (Im Suffix Angabe von Jahr und Version innerhalb des Jahres. ⇒ 191, 192)
  • Technische Umsetzung: Erzeugung einer Kopie der Arbeitsversion der Datenbank mit entsprechendem Suffix; Inhalte der versionierten Fassungen bleiben unverändert.
  • Wechsel zwischen den verschiedenen Versionen auf dem Webportal von VerbaAlpina:

Verfügbare VA-Versionen

  • Versionsnummer: Teil der meisten URLs, die auf VerbaAlpina-Ressourcen verweisen
    Beispiel: die URL für den Morpholexikalischen Typ L2599/tegia (roa f.) im LexikonAlpinum in der VA-Version 211:

db=211#L2599" target="_BLANK">https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=12180&db=211#L2599

  • Übersicht über sämtliche bislang vorhandenen Versionen auf der Startseite von VerbaAlpina unter dem Button "Timeline". Ein Klick auf eines der Versionsbilder öffnet eine Statistik, die den Datenzuwachs in der jeweiligen Version anzeigt:

VerbaAlpina "Timeline" mit statistischen Daten zur VerbaAlpina-Version 2021

  • Timeline-Übersicht: künftig noch weitere Informationen zu Veränderungen gegenüber den Vorgängerversionen; vor allem zu nicht quantifizierbaren Errungenschaften wie etwa die Entwicklung neuer Tools oder Veränderungen in Design oder Usability

6. Virtuelle Kartographie auf georeferenzierter Grundlage

  • Konsequente Nutzung von Webtechnologie ⇒ Verzicht auf graphische Grundkarte
  • Stattdessen: Auswahl verschiedener georeferenzierter Basiskarten von Tile-Servern in einem WebGIS
  • ⇒ Karten mit/ohne Relief, mit/ohne Beschriftung, Karte/Satellitenbild usw.:

Optionale Kartenoberflächen in VA (interaktives Original)

  • verschiedene geographische Referenzeinheiten:
    • politische Gemeinde (Primärreferenz)
    •  NUTS 3-Regionen (NUTS: Nomenclature des unités territoriales statistiques):
    • Nationalstaaten
    • Sprachgebiete (Sprachfamilien)
  • quantifizierende Darstellungen durch sog. heat maps. Beispiel: Menge der Crowder, d.h. der aktiven Nutzer, die uns Belege geliefert haben (1688 Personen, am 13.10.2021, 9:40) mit Bezug auf die Gemeinden und die von der Europäischen Kommission definierten NUTS 3-Regionen

Optionale Visualisierung mit Referenz auf die Gemeindeflächen (links, interaktives Original) und die NUTS 3-Regionen (rechts, interaktives Original)

  • Das Beispiel zeigt im Übrigen, dass jederzeit aktuelle Datenbestände visualisiert werden können.

7. Möglicher Einbezug nicht sprachlicher Kontextdaten

  •  demographische und historische  Informationen über den Belegort:  unerlässlich für die Interpretation geolinguistischer Konstellationen
  • daher: Verknüpfung aller 5771 Gemeindenamen des Alpenraums mit den jeweiligen Einträgen im Dienst geonames.org
    • Beispiel der Gemeinde, auf deren Territorium wir uns befinden, Garmisch-Partenkirchen → vielfältige topographische, administrative und enzyklopädische (Wikipedia-Logo) Informationen:

Über geonames.org importierte Informationen (Beispiel Garmisch-Partenkirchen – Quelle)

  • relevant: sprachliche Stratigraphie des Alpenraums
  • ⇒ Einbindung historischer Daten
  • Frage: Existenz eines lateinisch-romanischen Substrats?
  • Beispiel Garmisch-Partenkirchen:
    • Existenz lateinischer Inschriften?
    • antike Erwähnung des Ortsnamens im Itinerarium Antonini bzw. auf der darauf basierenden Tabula Peutingeriana:

Erwähnung von Partenkirchen (Tarteno ⇒  <P>arteno) auf der Tabula Peutingeriana (interaktives Original)

  • Nicht-sprachliche Kontextdaten: zusammen mit den Sprachdaten in der zentralen VerbaAlpina-Datenbank in der Tabelle "Orte":

Ausschnitt aus der Tabelle "Orte" in der VA-Datenbank mit Einträgen zu "Partenkirchen"

  • aktuell etwa 165000 Einträge
  • mehr als 250 MB.
  • 47 Kategorien, z. B.:
    • Tabula Peutingeriana
    • Kloester (1317);
    • langobardische_graeberfelder (120);
    • Walsergemeinden (77);
    • Raetische Inschriften (36);
    • ...

8. Überwindung der Gattungsgrenzen

  • die Ergebnisse geolinguistischer Forschung traditionelle in unterschiedlichen  Gattungen veröffentlicht (Ortsmonographie, Atlas, Wörterbuch, Korpus)
    • jeweils spezifische Zwecke
    • komplementär
  • im Rahmen der digitalen Medien: kategorische Trennung sinnlos.
  • Komplementarität der Gattungen → Verflechtung im Webauftritt von VerbaAlpina
    • unter dem Reiter  Methodologie: theoretische Erörterungen zentraler linguistischer und informationstechnischer Begriffe
    • Verschränkung mit mit den beiden wichtigsten Funktionalitäten, der interaktiven Karte und dem Lexicon Alpinum
  • symbiotische Anlage dieser beiden Komponenten
    • Lexikoneintrag → Visualisierung auf einer Karte (durch einen Klick)
    • Karte → korrespondierender Lexicon-Eintrag (durch Klick)

    Wechselseitige Verschränkung lexikographischer und kartographischer Informationen
  • im diskursivem Text / aus der interaktiven Karte heraus:  direkte Abfrage des Datenkorpus möglich
  • auch für Nutzer möglich, auf der interaktiven Karte individuelle Datenbankabfragen über die Schaltfläche 'SQL Query' abzuschicken und die Ergebnisse so in kartographischer Darstellung einzusehen
    • die Nutzung der SQL-Funktion → Kenntnisse in der Abfragesprache SQL.
    • Informationen über Struktur und Inhalt der abfragbaren Tabelle: Fragezeichen neben dem Schlüsselwort "WHERE"

Dialogfelder zur Formulierung individueller Abfragen. Ein Tooltip präsentiert die in der Tabelle vorhandenen Felder samt deren Datentypen.

  • Detaillierte Informationen zu Datenbankfeldern und deren Inhalten: blauer Link am unteren Rand des Tooltipps
  • Beispiel: Slawische Belege mit dem Basistyp "butyru(m)":

Kartierung von Einzelbelegen, die dem lexikalischen Typen "Butter" zugeordnet sind und mit einem P beginnen. Ein Rechtsklick auf den Legendeneintrag ermöglicht die Modifizierung der SQL-Abfrage (Dialogfeld rechts).

Appendix

Ein Beispiel für Aggregation und Gattungsverschränkung

  • detaillierteres Beispiel für Aggregation unterschiedlicher Quellen(typen) und Gattungsverschränkung
    • Artikel chaschöl des bündnerromanischen Referenzwörterbuchs DRG (Link)
    • die dort genannten Formen → auf der Karte chaschöl
    • im Verbund mit denjenigen aus anderen Quellen, vgl. stellvertretend die Markierung der Orte des VSI

Verbreitung des Typs chaschöl (< lat. caseolus) im Spiegel aggregierter Quellen, interaktives Original

  • regionale Besonderheit des lexikalischen Typs (Tessin, Graubünden, Dolomiten) → im kartographischen Kontext aller anderen Bezeichnungen von KÄSE (vgl. die Karte KÄSE)

Eckpunkte der technischen Umsetzung

  • Reine Webtechnologie
  • Portal: https://www.verba-alpina.gwi.uni-muenchen.de/ (DOI:https://dx.doi.org/10.5282/verba-alpina; online seit 2015)
  • Full stack Entwicklung
  • Frontend: WordPress
  • Backend: MySQL-Datenbank
  • Staff: 2 Informatiker (65% Zeitanteil), zeitweise unterstützt durch Hilfskraft
  • Interaktive Karte:
    • JS-Bibliotheken Leaflet, Pixi, WebGL
    • sehr leistungsfähig (nötig bei zahlreichen Kartensymbolen und Grenzverläufen! Demo)
    • detaillierte Beschreibung
  • Hosting auf den Servern der IT-Gruppe Geisteswissenschaften (ITG):
    • Professionelle IT-Umgebung
    • hohe Verfügbarkeit der Webkomponenten (Web- und DB-Server)
    • Betrieb der Website auch über Projektende hinaus

Die IT-Gruppe Geisteswissenschaften (ITG)

  • seit 2000
  • unbefristete Existenzperspektive
  • zuständig für die 6 geisteswissenschaftlichen Fakultäten der LMU
  • Aufgabengebiete:
    • IT-Infrastruktur
    • Forschung & Lehre digital
    • Forschungsdatenmanagement (FDM)
  • Personal:
    • dauerhaft: 5 Wissenschaftler, 2 Techniker;
    • variabel: drittmittelfinanzierte Projektmitarbeiter
  • Technische und konzeptionelle Unterstützung von DH-Projekten von Anbeginn (56 Stand 11/2021; Liste)

Bibliographie

  • ADDU = Thun, Harald / Elizaincín, Adolfo (2000-): Atlas lingüístico diatópico y diastrático del Uruguay, Kiel, Westensee
  • AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
  • ASD = Krefeld, Thomas / Lücke, Stephan / Mages, Emma (2016): Audioatlas Siebenbürgisch-Sächsischer Dialekte , München, Ludwig-Maximilians-Universität. Link
  • ASLEF = Pellegrini, Giovan Battista (1974-1986): Atlante storico-linguistico-etnografico friulano, Padova, vol. 1-6
  • AsiCa = Krefeld, Thomas / Lücke, Stephan (2006-2017): Atlante sintattico della Calabria, München. Link
  • Asica 2.0 = Krefeld, Thomas / Lücke, Stephan (2019): Atlante sintattico della Calabria. Rielaborato tecnicamenta da Veronika Gacia e Tobias Englmeier, München. Link
  • DRG = De Planta, Robert/ Melcher, Florian/ Pult, Chasper/ Giger, Felix (1938ff.): Dicziunari Rumantsch grischun, Chur, Inst. dal Dicziunari Rumantsch Grischun. Link
  • DWDS = Berlin-Brandenburgische Akademie der Wissenschaften (Hrsg.) (2004-): Das Digitale Wörterbuch der deutschen Sprache, Berlin. Link
  • GPSR = Gauchat, Louis (Hrsg.) (1924ff.): Glossaire des patois de la Suisse romande, Genève [u.a.], Droz [u.a.]
  • Idiotikon = (1881 ff.): Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch, Basel. Link
  • Krefeld 2018 g = Krefeld, Thomas (2018): I principi FAIR nel progetto VerbaAlpina, ossia il trasferimento della geolinguistica alle Digital Humanities. Link
  • Krefeld/Lücke 2020 = Krefeld, Thomas / Lücke, Stephan (2020): 54 Monate VerbaAlpina – auf dem Weg zur FAIRness, in: Ladinia, vol. XLIII, 139-156. Link
  • Metropolitalia = Krefeld, Thomas / Lücke, Stephan / Bry, François (2010-2013): Metropolitalia. Social Language Tagging, München. Link
  • VALTS = Gabriel, Eugen (1985-2004): Vorarlberger Sprachatlas mit Einschluss des Fürstentums Liechtenstein, Westtirols und des Allgäus , vol. 1-5, Bregenz, vol. 1-5, Vorarlberger Landesbibliothek
  • VIVALDI = Kattenbusch, Dieter/ Tosques, Fabio (1998-2016): VIVALDI: Vivaio Acustico delle Lingue e dei Dialetti d'Italia. Aktustischer Sprachatlas der Dialekte und Minderheitensprachen Italiens., Berlin, Humboldt-Universität Berlin, Institut für Romanistik. Link
  • VSI = Sganzini, Silvio (1952ff): Vocabolario dei dialetti della Svizzera italiana, Lugano, Tipografia la Commerciale
  • VerbaAlpina = Krefeld, Thomas / Lücke, Stephan (2014-): VerbaAlpina. Der alpine Kulturraum im Spiegel seiner Mehrsprachigkeit, München. Link
  • WBOe = Bauer, Werner/ Kranzmayer, Eberhard. Institut für österreichische Dialekt- und Namenlexika (Hrsg.) (1970–): Wörterbuch der bairischen Mundarten in Österreich, Wien, Verl. der Österr. Akad. der Wiss.

VerbaAlpina – Aspekte der informatischen Konzeption und technischen Realisierung (Zitieren)

Stephan Lücke
(2963 Wörter)

Der folgende Vortrag wurde im Rahmen der Vorlesung "Einblicke in digitale sprachwissenschaftliche Forschungsprojekte" des BA-Studiengangs "Digital Humanities in den Sprachwissenschaften" am 23.05.2022 gehalten.

Vorwort

  • Allerdings: Fachwissenschaft und informatische Methoden sind in den Digital Humanities (DH) so eng miteinander verwoben, dass eine klare Trennung nur schwer möglich ist – Zwei Seiten einer Medaille:

Zwei Seiten einer Medaille: Sprachwissenschaft und Informationstechnik

  • Überschneidungen und Wiederholungen mit dem Vortrag von Frau Colcuc und Frau Mutter letzte Woche können daher nicht vollkommen ausgeschlossen werden
  • Fachwissenschaften und Informationstechnologie beeinflussen sich wechselseitig

Wechselseitige Beeinflussung von Fachwissenschaften und Informationstechnologie

Übersicht

  1. Kurze Wiederholung: Worum geht es bei VA?
  2. Die reine Technik
  3. Vorstellung weiterer Funktionsbereiche von VA: Interaktive Karte – LexiCon Alpinum – CrowdSourcing-Modul II: Zooniverse
  4. VA als vollständig digitales Projekt: VA und die Herausforderungen von Digitalisierung und Vernetzung

1. Wiederholung: Das Projekt VerbaAlpina

  • VA ein Projekt im Bereich der Geolinguistik: sprachliche Variation vor dem Hintergrund von Raum und Zeit
  • Im Mittelpunkt: Die Lexik – Welche Wörter werden im Alpenraum für ausgewählte Begriffe verwendet? Phonetik, Morphosyntax und Grammatik spielen konzeptionell keine Rolle (können zumindest teilweise auf Basis des von VA zusammengetragenen Materials untersucht werden)
  • Es geht um Dialektwörter, National- bzw. Standardsprachen spielen eine untergeordnete Rolle
  • Beschränkung auf Bezeichnungen für "typisch" alpine  Konzepte (Milch- und Almwirtschaft, Flora, Fauna, traditionelle Küche, Tourismus/Modernes Leben)
  • VA dokumentiert ausschließlich lexikalische Daten mit einem definierten Bezug zum Raum (Georeferenzierung; Gebrauch eines Wortes an einem ganz bestimmten Ort oder in einer ganz bestimmten Region)
  • Geographischer Rahmen: Die Grenze der Alpenkonvention
  • Sprache und außersprachliche Realität sind folgendermaßen aufeinander bezogen:
Bezeichnung KONZEPT (=BEGRIFF)
Butter     
  • Konvention: Konzepte werden in VERSALIEN, Bezeichnungen kursiv geschrieben ⇒ BUTTER vs. Butter
  • Bidirektionale Verknüpfung (semasiologisch: Bezeichnung ⇒ KONZEPT vs. onomasiologisch: KONZEPT ⇒ Bezeichnung)
  • Informatisch gesprochen: m:n-Beziehung: eine Bezeichnung kann mehrere Bedeutungen haben, für eine Sache/Konzept gibt es mehrere Bezeichnungen

  • Auf den ersten Blick ist diese Zuordnung sehr simpel. Sie erlangt jedoch große Komplexität in dem Moment, in dem man die Dimensionen des Raumes und der Zeit in dieses System einbezieht
  • Bezeichnungen und ihre Bedeutung variieren in Raum und Zeit. Regionale Bezeichnungsvariation am Beispiel von malga:
  • Regionale Verbreitung von Wörtern und ihren Bedeutungen kann sich im Lauf der Zeit verändern
  • Weitere Veränderung über die Zeit: Sprachwandel: lat. lac ⇒ ital. latte, frz. lait
  • Ergebnis: sehr komplexes, vierdimensionales, bewegliches Geflecht von Wörtern und ihren Bedeutungen
  • Grundschema ist folgende Zuordnung:
Bezeichnung Konzept Georeferenz Chronoreferenz Quelle
painch BUTTER Ardez (10.1399 46.8577) 1928-1940 AIS 1207, 7
Anke BUTTER Malters (8.2514 47.0124) 1962-2003 SDS V 179, LU24
...
  • Traditionell: Erschließung lexikalischen Material *entweder* durch Wörterbücher (semasiologischer Zugriff) *oder* durch Sprachatlanten (onomasiologischer Zugriff)
  • VerbaAlpina verbindet beide Zugriffsarten, ist Wörterbuch und Sprachatlas in einem
  • Die Daten von VA stammen aus:
    • Sprachatlanten,

AIS-Karte 1218 "Il siero del formaggio" (MOLKE; Navigais; vgl. VA-Karte; lita, leyto/u ) ⇒ letie (roa f.)). Der AIS präsentiert unmittelbare Äußerungen eines Sprechers in phonetischer Transkription

    • Wörterbüchern (nur solchen, die auch Informationen zur geographischen Verbreitung von Wörtern enthalten)

Eintrag Teie(n) im Schweizerdeutschen Idiotikon. GrMu. = Mutten, GrKl = Klosters, GrD = Davos, GrChur. = Churwalden. Das Idiotikon dokumentiert typisierte Belege, zeigt also keine unmittelbaren Äußerungen eines Sprechers

    • Crowdsourcing (⇒ Sammlung von aktuellen Daten über das Internet)
    • Partnerprojekte (z. B. ALD: Übernahme der Daten in Form eines SQL-Dumps)
  • Status der gesammelten Sprachdaten ist unterschiedlich:
    • Einzelbelege (konkrete Äußerung eines einzelnen Sprechers (auch: "Informant"; Beispiel AIS) vs.
    • morpholexikalische Typen (entspricht einem Lemma in einem Wörterbuch; Beispiel Idiotikon)
  • Typisierung: Einzelbelege müssen manuell "typisiert", also zu lexikalischen Lemmata zusammengefasst werden. VA nennt diese "morpholexikalische Typen", kurz: Morphtypen – Beispiel: phonetische Varianten des Morphtyps "tegia" (Morphtyp zur Bezeichnung u. a. der SENNHÜTTE [AIS 1192_1, CASCINA DI MONTAGNA]; insgesamt 26; DB-Abfrage:

    Exempla mit "###" markieren Fälle, in denen der Morphtyp als Teil eines längeren Ausdrucks verwendet wird):

tˈeːʥɑ
tˈeːɑ
tˈiːʥɑ
tˈiːzɑ
tˈiːdzɑ
tˈeːa
tˈeːjɑ
tˈeːj̆ɑ
tˈeːɑ###tˈeːɑ dɑ ˈalp
tˈeaɜ
tˈea
tˈeʤa
tˈeːaɑ˺
tˈeːaɜ
tiˈeʒa###tiˈeʒa da mont
teˈaθ
tˈej̆###tˈej̆ da la bˈoːʤɑ
tˈɛːza
tˈeʒɑ
tˈeːzɛ
tˈeːʥɑs͉###mˈidaː tˈeːʥɑs͉
te̞ˈaθ
Tegia###Tegia d'alp
Tegia
teggia
Tieja

  • Typisierungstool zur Erleichterung dieser Arbeit; de facto nicht automatisierbar

Das Typisierungstool von VerbaAlpina

  • Historische Tiefe durch Erfassung auch der Wortgeschichte
  • Für jeden Morpholexikalischen Typ werden nach Möglichkeit auch historische Vorläufer identifiziert und dokumentiert
  • Dabei gibt es grundsätzlich zwei Szenarien:
    • Entlehnung aus einer anderen Sprache
    • Entwicklung aus einer älteren Sprachstufe ("Etymon" – z. B. Latein ⇒ Italienisch, Französisch, Rätoromanisch, Rumänisch etc. ...)
  • Oft ist nicht sicher zu entscheiden, welches Szenario vorliegt
  • Daher hat VA den Begriff des "Basistyps" eingeführt: Er bezeichnet einfach eine Vorstufe eines morpholexikalischen Typen, vermeidet aber die Festlegung auf eine der beiden genannten Möglichkeiten
  • Beispiel: lat. salamandra als Vorstufe von ital. salamandra und deu. Salamander; die Zuweisung eines "Basistyps" zu einem Morpholexikalischen Typen stellt lediglich einen offenkundigen, grundsätzlichen Zusammenhang zwischen beiden fest, sagt aber nichts über die konkrete  Art  dieses  Zusammenhang  aus:

2. Die reine Technik

  • VA vollständig digital
  • Nur open source Technologie
  • fast ausschließlich Web-Technologie
  • WordPress als Content Management System (CMS)
  • MySQL-Datenbanken (eine für Kerndatenbestand, eine generische als WordPress-Backend)
  • Generierter Computercode überwiegend PHP, JavaScript, SQL, CSS
  • Infrastruktur bestehend aus Datenbank- und Webserver(n)
  • Betrieb der Infrastruktur durch die IT-Gruppe Geisteswissenschaften (ITG)
  • Hohe Verfügbarkeit der Dienste (sehr geringe Ausfallzeiten)
  • Professionelles Maintenance (Pflege der Serversoftware: regelmäßige Updates und Sicherheitspatches)
  • VA-Datenbank umfasste im Mai 2021 140 Tabellen, 18 Views, 25 Funktionen, 47 Prozeduren, 5 Trigger

3. Weitere Module von VA: Interaktive Karte – LexiCon Alpinum – API – CrowdSourcing-Modul II: Zooniverse

a) Interaktive online-Karte

  • zentrales Visualisierungsinstrument – Glanz- und Prunkstück von VA: Interaktive online-Karte
  • realisiert mit PHP, JavaScript, WebGL (Letzteres macht die Karte hochperformant [durch Verwendung des Prozessors auf der Graphikkarte]. Beispiel: Schnelles Zoomen nach Auswahl von Gemeindepolygonen europaweit ⇒ zigtausende von Einzelpunkten)
  • onomasiologische und semasiologische Kartierung (synoptische Kombination unterschiedlicher Perspektiven, die im Buchdruck nicht möglich war: Sprachatlas vs. Wörterbuch). Beispiel: Suche nach Butter vs. BUTTER (unterschiedliche Gruppierungsmöglichkeiten, bei Konzepten u. a. nach Morphtypen und nach Basistypen, bei Morphtypen nach Konzept oder Quelle)
  • Unterscheidung zwischen Background-Layer und Overlays
    • Unterschiedliche Backgroundlayer: aktuelle, elektronische Karten (z.B. Esri.WorldImagery, OpenTopo etc.)
    • Overlays: zum Teil historische, gescannte und georeferenzierte Karten (z. B. Mayr's Alpenkarte; zukünftig evtl. Karten zur Bodengüte, Geologie, Infrastruktur etc.; interessant auch: Verlauf der Baumgrenze)
    • Opazität der Overlays kann stufenlos eingestellt werden.
  • Qualitative vs. quantitative Kartierung:
    • Qualitative Kartierung: Geographische Verteilung von Merkmalsausprägungen auf dem Hintergrund des Netzes der politischen Gemeinden (z. B. Verbreitung der Belege für den Morphtypen "burro")
    • Quantitative Kartierung: Die Häufigkeit einer bestimmten Merkmalsausprägung wird für bestimmte regionale Einheiten berechnet (zur Auswahl stehen u. a.: Gemeindegrenzen, NUTS-3-Grenzen [~ deutschen Landkreisen], Sprachgebiete; Auswahl über den Menüpunkt "sprachbezogene Peripherie") – Beispiel: Verbreitung des Morphtypen 'Anke')
  • Kartensymbole klickbar -> Infofenster mit Detailinformationen, Normdaten und Verlinkungen (im Fall von Morphtypen: Angabe u. a. von Morphtyp, Basistyp, Quelle, bezeichnetem Konzept, ggf. nicht typisiertem Einzelbeleg)
  • SQL: Direkte Eingabe von SQL-Abfragen, z. B.: "finde alle Einzelbelege des morpholexikalischen Typs 'Butter', die mit einem 'P' (statt mit einem 'B') beginnen
  • Gerade bei quantifizierenden Darstellungen: Unterschiedliche Größe der Gemeindeflächen verzerrt Wahrnehmung ⇒ Hexagonale Abbildung der "räumlichen Einteilungen"
  • Möglichkeit, Karten zu generieren und zu speichern ("Synoptische Karten"; Beispiel: "Die Basistypen cellarium, baita, casearia als Substrat")
  • Möglichkeit, Karten zu teilen (Teilen-Link)
  • Erläuterung der Kartenfunktionen u. a. durch kleine Fragezeichen

b) Lexicon Alpinum

  • online-Demo
  • Textzentrierter Zugriff auf das Datenmaterial
  • Alphabetische Liste aller Morph- und Basistypen sowie aller Konzepte
  • Filterung der Gesamtliste nach Konzepten, Basis- oder Morphtypen durch Eingabe von "konzept" etc. in Suchfeld
  • Beispiel: Suche nach "Basistyp unguere" ⇒ Auswahl durch Anklicken ⇒ Übernahme in Ergebnisliste (ggf. Anzeige von Kommentar)
  • Belege in Ergebnisliste: Anzeige von VA-ID (Beispiel ungere: B567) – Link auf Kartierung – Zitierlink mit DOI (Kettensymbol)
  • Registersymbol "Daten": Verknüpfungen des ausgewählten Typs oder Konzepts mit anderen Inhalten im Datenbestand, gegliedert  (in Abhängigkeit vom ausgewählten Datum) nach Morpholexikalischen Typen (im Fall von Basistypen), Gemeinden und Konzepten ("Welche Konzepte sind mit "unguere" verbunden?)
  • Auswahl von einzelnen Konzepten oder Morph-/Basistypen durch Anklicken der Liste
  • Eingabefeld "Durchsuchen" führt eine Volltextsuche in den zuvor ausgewählten Items durch

c) API

  • VA bietet verschiedene Möglichkeit, auf seinen Datenbestand zuzugreifen:
  • öffentlich zugänglich: Interaktive Karte, Lexikon Alpinum
  • reserviert für offizielle Projektpartner von VA: Direktzugang zur VA-Datenbank über PhpMyAdmin oder Client-Programme
  • Die bisher genannten Zugangsweisen primär für Menschen ("User Interfaces", "Mensch-Maschine-Schnittstelle")
  • daneben: sog. API: „application programming interface“ – "Maschine-Maschine-Schnittstelle" "Anwendungsprogrammierschnittstelle" – ebenfalls öffentlich zugänglich
  • Dokumentation und Beispiele auf dem Webportal von VA veröffentlicht: https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=493&db=212&letter=A#138
  • VA-Daten können über die API in unterschiedlichen Formaten als Webseite oder in (z. B. csc-)Dateien heruntergeladen werden (auch von Menschen über einen Browser)
  • Beispiel: Die URL https://www.verba-alpina.gwi.uni-muenchen.de/?api=1&action=getName&id=S134468&version=182 liefert den Einzelbeleg S134468 in der Fassung der VA-Version 182 (= 1. Halbjahr 2018); Der Beleg stammt aus dem Sprachatlas Italiens und der Südschweiz (AIS): https://navigais-web.pd.istc.cnr.it/?map=1073&point=323 (Original im Atlas; Karte 1073 "SCHAFHIRTE", Informant 323 [Predazzo])
  • Dokumentation der API von VA

d) CrowdSourcing-Modul II: Zooniverse

  • Kernidee: Nachnutzung eines generischen Baukastens ⇒ Reduktion von Entwicklungsaufwand
  • Absicht/Zweck: Transkription von Sprachatlasdaten durch die "Crowd"
  • Zentrales Problem: Zuordnung von Text- oder Symboleintragungen auf Karten von Sprachatlanten zu Erhebungspunkten maschinell nicht operationalisierbar (Maschinen sind überfordert:
  • Problem jedoch speziell bei Sprachatlanten: Zuordnung von Schrift zu Erhebungspunkten:

    Attributionsaufgabe im Zooniverse-basierten Crowdsourcing-Tool von VerbaAlpina

    • Bilanz:
      • Nachnutzung der generischen Umgebung sehr aufwendig ⇒ Ursprüngliche Hoffnung nicht bestätigt
      • Transkriptionsaufgabe teils zu komplex für Crowder (Transkriptionssystem letztlich doch kompliziert)
      • Korrektur: Sinnvoll könnte die Beschränkung auf die Zuordnungsaufgabe sein (welcher Eintrag gehört zu welchem Punkt? Verzicht auf Transkription. Transkription könnte durch OCR erledigt werden)

    4. VA und die Herausforderungen der Virtualität

    • VerbaAlpina ist VOLLSTÄNDIG digital konzipiert
    • "digital" ist zu wenig! Mehrwert entsteht vor allem durch Vernetzung: Einsatz von Webtechnologie (u. a. ⇒ WordPress)
    • Vernetzung hat zwei Seiten! VA bindet externe Inhalte an die eigenen an und bietet umgekehrt externen Instanzen die Möglichkeit, die VA-Daten anzubinden. Wichtige Rolle kommt dabei sog. Normdaten zu (VA-Normaten: Identifikatoren für Morphtypen, Konzepte, Orte und Einzelbelege; von VA genutzte externe Normdaten: Wikidata-QIDs und LIDs, Geonames, ...)
    • Technologie wird multifunktional eingesetzt, für:
      • Datenerfassung/-sammlung
      • Datenanalyse (algorithmische/statistische Berechnungen des gesammelten Datenmaterials; z. B. lexikalische Variation bezogen auf bestimme KONZEPTE: Welche Konzepte werden mit besonders viel, welche mit besonders wenigen Morphtypen bezeichnet)
      • Monitoring/Überwachung (z. B. Live Statistik der Crowdsourcing-Aktivität)
      • Datenvisualisierung (im Wesentlichen Kartierung)
      • Publikation diskursiver Inhalte: Vorlesungen wie die vorliegende, Artikel/Beiträge (Ersatz für Publikation in Zeitschriften, Monographien und Sammelbänden; Beispiel: Krefeld, Thomas / Lücke, Stephan (2021): (Unsere) Prinzipien der virtuellen Geolinguistik [= Krefeld/Lücke 2021 ])
      • Organisation/Kommunikation (Protokolle der wöchentlichen Projekttreffen)
      • Dokumentation (Erläuterungen zu Methode und Technik)
    • VA verzichtet quasi vollständig auf Papier – alles ist elektronisch (blickt man auf die Geisteswissenschaften, ist das nicht selbstverständlich; breit gestreutes Kontinuum zwischen fast totaler Ablehnung [Computer/Digitalität nur als Werkzeug zur Erzeugung traditioneller Diskursformen wie Artikel und Monograpien] und maximaler und konsequenter Nutzung)
    • Aus konsequenter Nutzung der Digitalität resultieren (überwiegend) Vor-, aber auch Nachteile

    a) Vorteile von Digitalisierung und Vernetzung

      • Multimedialität (Text, Bild, Ton [!])
      • Hohe und niederschwellige Verfügbarkeit, auch abseits von Zentren wissenschaftlicher Forschung (Universitäten, wissenschaftliche Bibliotheken) in abgelegenen Regionen
      • Verknüpfbarkeit der Inhalte (Vernetzung), dadurch u. a. ...
        • Entstehung eines größeren Ganzen, das mehr ist als die Summe seiner Teile1
        • Möglichkeit direkter, unmittelbarer Referenzierung durch stabile/verlässliche Direct Links, Beispiel: Link auf VA-Karte, Link auf diskursive Inhalte in KiT (Ersatz für Angabe von Seiten im Paradigma des Buchdrucks)
        • Vernetzung nur sinnvoll, wenn feine Datengranulierung vorliegt (Beispiel Buch: ohne Seitenzahlen Referenzierung wertlos)
      • Multifunktionalität: Arbeitsinstrument (Sammlung und Verwaltung von Daten), Publikation, Kommunikation etc. (s. oben) – Konsequenz: fundamentale Änderung wissenschaftlicher Arbeitsweise (ehedem: Wissenschaftler zunächst isoliert im "Studiolo", sammelt Material, wertet aus, verfasst Text(e), korrespondiert brieflich mit Kollegen, beschränkter Kontakt mit "Publikum" (wissenschaftliche Community), Laien praktisch ausgeschlossen (Zugang zu wiss. Bibliotheken Voraussetzung), Abhängigkeit von Verlagen und Buchhandel  etc. ... – nunmehr: Forschungsarbeit von Anbeginn potentiell öffentlich, erleichterter Austausch, unmittelbares Feedback ⇒ schnelle Korrektur von Fehlern (zumindest theoretisch)
      • ...

    b) Nachteile:

    • "Flüchtigkeit" des Mediums mit zwei primären Konsequenzen: ...
      • Gefahr von physischem Datenverlust (anders als beim Buch)
      • "Instabilität" (Daten können willentlich vom Autor verändert werden ⇒ problematisch bei Zitaten (anders beim Buch: Titel, Auflage, Seitenzahl absolut stabil)
    • Abhängigkeit von personeller und maschineller Infrastruktur
    • Notwendigkeit unbefristeter Betreuung der technischen Komponenten
    • dauerhafte Finanzierung erforderlich, auch über Ende der Projektfinanzierung hinaus (Betriebskosten für personelle und maschinelle Infrastruktur; bei Buch nach Druck weitgehend abgeschlossen, außer Kosten für Bibliotheken)
    • Notwendigkeit technischen Know-Hows bei den Fachwissenschaftlern (Hürde für Bereitschaft zum Einsatz der DH!)
    • Gestiegene Verantwortung der "Autoren": Änderung oder Verlust beeinflusst und beschädigt ggf. das größere Ganze
    • wechselseitige Abhängigkeiten durch Vernetzung auf verschiedenen Ebenen:
      • inhaltlich/fachwissenschaftlich: Verknüpfung von Daten verlangt Schaffung von Standards (Beispiel Lexikographie: Einsatz von Normdaten und persistenten Identifikatoren zur eindeutigen Bezeichnung von Morphtypen)
      • technisch: Veränderungen von Frameworks und Diensten (Beispiel aus VA: anfänglicher Einsatz von Google Maps API für online-Kartierung der VA-Daten)
      • rechtlich: Änderung von Lizenzbedingungen bei Diensten, deren Angebot vom eigenen Projekt genutzt wird
    • Änderung des "mindsets" in der Wissenschaftscommunity erforderlich, u. a.:
      • Bereitschaft zur Aneignung von Know How
      • Konsequente Abkehr von den traditionellen Formen wissenschaftlicher Arbeit (PDF als Surrogat des Buchdrucks, PDFs sind von Nachteil, weil nur bedingt internettauglich und dadurch schwer vernetzbar und überwiegend mit diskursivem Inhalt; Unterscheidung zwischen "Forschungsdaten" und ... "normalen" [?] Daten – besser: strukturierte Daten vs. diskursive Daten; früher war die Unterscheidung sinnvoll, da z. B. naturwissenschaftliche Messdaten wegen ihrer Menge nicht gedruckt werden konnten)
    • Interoperabilität verlangt hohes Maß an feiner Datengranulierung (⇒ strukturierte Daten)
    • "Lebende Systeme" wie WebPortal von VA bedürfen regelmäßiger Codepflege (laufend maintenance, in größeren Abständen re-engineering)
    • aktuell noch: fehlende institutionelle Strukturen (wer sorgt für dauerhafte Bewahrung digitaler Inhalte? Wer übernimmt die Finanzierung) ⇒ Initiative "Nationale Forschungsdateninfrastruktur" (NFDI)

    c) Antworten von VerbaAlpina auf die Nachteile bzw. Herausforderungen der Digitalität

    • "Flüchtigkeit": Schaffung von Stabilität durch Versionierung (alle 6 Monate, jeweils zu Jahresmitte und -ende; Nomenklatur: 221 ⇒ Version von Mitte des Jahres 2022; 222 ⇒ Version vom Ende des Jahres 2022) – Beispiel: Zitat eines Methodologie-Eintrags:
    Lücke, S. (2020): s.v. “API”, in: VerbaAlpina-de 21/2 (Erstellt: 19/1, 
    letzte Änderung: 20/1), 
    Methodologie, 
    https://doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D493%26db%3D212%26letter%3DA%23138
    • Technische Umsetzung: Versionen werden erzeugt durch Anfertigung von Kopien der zentralen VA-Datenbank
    • Screenshot aus dem PMA-GUI: Versionen der VA-Datenbank

    • Betrieb der Infrastruktur durch eine weitgehend bestandsgesicherte Institution (ITG der LMU)
    • Erzeugung von hochgranularen strukturierten Daten (Erleichterung bzw. überhaupt erst Ermöglichung von zielgenauer Vernetzung)
    • Einsatz von stabilen Internet-Adressen (DOIs; setzen auch Sorgfalt und Umsicht voraus), auch für granulare Einzeldaten
    • Einsatz von kostenfreier open source Standardsoftware zur Reduzierung von Wartungsaufwand und Nachnutzbarkeit
    • Anwendung einer offenen Nutzungslizenz: CC BY-SA (essentiell für Nachnutzung der Daten durch Dritte)
    • Zusätzliche Absicherung des Datenbestands durch Übertragung in geeignete Repositorien der UB der LMU, u. a. "Discover" -
    • Detaillierte Dokumentation u. a. durch ...

    d) Bislang ungelöste Probleme von Digitalisierung und Vernetzung

    • ungelöstes (unlösbares?) Problem "lebender Systeme": dauerhafter Betrieb des Webportals kann nicht garantiert werden; Sourcecode des Webportals wird auf GitHub veröffentlicht, Hoffnung: zukünftiges "Nachbauen" des Portals mit dann verfügbaren technischen Mitteln; entscheidend sind Idee und Konzept)
    • Flächendeckende Akzeptanz
    • Klärung der institutionellen Zuständigkeiten

    Resumée: Digitalisierung in den Geisteswissenschaften eher eine – noch längst nicht abgeschlossene – Evolution als eine Revolution. 

     

    Ich danke für die Aufmerksamkeit!

    ***


    Appendix (optional): Transkription

    • Problem: Erfassung von Daten speziell aus Sprachatlanten

    • Dort verwendete Transkriptionssysteme ([Bibl:AIS]: Böhmer-Ascoli) zumindest teilweise nicht in Unicode kodiert:

    Die Unicode-Blöcke mit phonetischen Zeichen (Link)

    • Selbst wenn: Erfassung mit Standardtastaturen sehr umständlich und fehleranfällig, Lösung: sog. Betacode:

    Transkription "exotischer" Schriftzeichen mit einer deutschen Standardtastatur ("Betacode")

    • Kernidee übernommen vom Thesaurus Linguae Graecae (TLG) – Beispiel (TLG-Link [Login erforderlich]):

    Μῆνιν ἄειδε, θεά, Πηληϊάδεω Ἀχιλῆος,
    οὐλομένην, ἣ μυρί’ Ἀχαιοῖς ἄλγε’ ἔθηκεν,

             ⇓

    *MH=NIN A)/EIDE, QEA/, *PHLHI+A/DEW *)AXILH=OS,
    OU)LOME/NHN, H(\ MURI/' *)AXAIOI=S A)/LGE' E)/QHKEN,

    • Betacode: Entwickelt Ende der 1970er Jahre von David Woodly Packard für den TLG
    • Betacode ursprünglich nur für Altgriechisch, später auch für andere Schriftsysteme, z. B. Hebräisch (Link)
    • Übertragung in andere Schriftsysteme durch automatische Ersetzung auf Basis von Codepages. Beispiel aus dem AIS:

    Manuelle Erfassung in Betacode und automatische Umsetzung nach IPA

    • Potentielles Problem: Informationsverlust durch Inkongruenzen bezüglich abbildbarer phonetischer Granularität

    Zuordnungsversuch von Teuthonista-Graphemen in das IPA-Vokaltrapez

    • Einsatz von OCR grundsätzlich möglich; Beispiel: Zuweisung der HTML-Entity θ zum griechischen Buchstaben Theta:

    Dialogfeld des kommerziellen OCR-Programms Abbyy Finereader. Zuweisung des Theta zur HTML-Entity θ (03B8 ist der entsprechende Unicode Codepoint)

    Dialogfeld von Abbyy Finereader mit Übetragung eines griechischen Texts in HTML-Entities

    • Analog zum o. a. OCR-Verfahren könnten auch phonetische Schriftzeichen der Sprachatlanten automatisch in ASCII-Zeichenfolgen umgesetzt werden

    Übertragung eines [Bibl:AIS]-Lauts in Betacode mittels OCR (Theorie)

    FineReader-Patterns für OCR von AIS-Zeichen (Filip Hristov)


    1. Diese Vorstellung wird gemeinhin auf Aristoteles zurückgeführt. Exakt so hat er es nicht formuliert, den Gedanken kann man aber u. a. aus Metaphysik VIII 6, 1 (1045a) herauslesen, wo es heißt: “Von allem nämlich, was aus mehreren Teilen besteht und aufs Ganze gesehen nicht nur wie ein ungeordneter Haufen ist, sondern etwas Ganzes jenseits der Einzelteile darstellt, gibt es ein Verbindendes. Denn auch in den menschlichen Körpern wird die integrale Gesamtheit entweder durch ein Gelenk oder durch eine kohesive Substanz oder durch etwas anderes derartiges erzeugt.” (trad. Stephan Lücke)  


    Bibliographie

    • AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
    • Idiotikon = (1881 ff.): Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch, Basel. Link
    • Krefeld/Lücke 2021 = Krefeld, Thomas / Lücke, Stephan (2021): (Unsere) Prinzipien der virtuellen Geolinguistik. Link
    • SDS = Baumgartner, Heinrich/ Handschuh, Doris/ Hotzenköcherle, Rudolf (1962-2003): Sprachatlas der Deutschen Schweiz, Bern, vol. 1-9, Francke

    Alles auf Null (und Eins) – Forschungskommunikation in virtueller Umgebung, am Beispiel von VerbaAlpina (Präsentation) (Zitieren)

    Stephan Lücke
    (1630 Wörter)

    Vortrag, gehalten von Thomas Krefeld und Stephan Lücke am 19.05.2021 im Rahmen der von Prof. Dr. Christine Haug, Dr. Marcel Schellong im Sommersemester 2021 veranstalteten "Vortragsreihe Forschungspotential der Digital Humanities in der Buch- und Literaturwissenschaft" (Programm)


    0. Vorab

    1. Übersicht

    2. Projektvorstellung

    3. Technische Umsetzung

    4. Theorie der Forschungskommunikation in virtueller Umgebung

    5. Herausforderungen der Virtualität/Digitalität für die Forschungskommunikation

    2. VerbaAlpina

    • "Lexikographisches" Projekt mit Focus auf dem Alpenraum
    • Wörter aus dem Umfeld typisch alpiner Konzeptdomänen (Alm- und Milchwirtschaft, Fauna, Flora, Ökologie, Tourismus); Konzeption in der Tradition der romanistischen Ethnolinguistik)
    • sprachgrenzüberschreitend im germanischen, romanischen und slawischen Sprachraum; (vgl. Sprachfamilien im Alpenraum und Karte)
    • Berücksichtigung auch und vor allem dialektaler Ausdrücke
    • Quellen: in der Hauptsache Sprachatlanten und Wörterbücher
    • Ergänzung/Abrundung/Ausgleich durch Crowdsourcing
    • Wesentliche Voraussetzung: Georeferenzierung (geographische Verortung von Einzelbelegen)
    • Dadurch: Dokumentation von Verbreitungsarealen bestimmter Lexeme (u. a. interessant: Verbreitungsareale, die die Grenzen von Sprachfamilien überschreiten, z. B.: lat. excŏcta,  sowohl im germ., rom. als auch slaw. Sprachraum)
    • Visualisierung durch eine interaktive Karte (vgl. Karte excŏcta)
    • Bidirektionale Perspektive:
    • In diesem Sinn auch Überwindung der Gattungen (Lexika: "Vom Wort zur Sache", Sprachatlanten: "Von der Sache zum Wort")
    • Förderung durch die DFG als "Langfristvorhaben" seit 2014 (derzeit Phase 3, bis 2023)
    • Personelle Ausstattung: 2 Sprachwissenschaftler, 2 Informatiker, Hilfskräfte (Team)
    • VA in sprachwissenschaftlicher Hinsicht: interlinguale Geolinguistik (zutreffender als ‘Dialektologie’)

     

    3. Technische Umsetzung

    • VA ist vollständig digital konzipiert (konsequenter Verzicht auf Papier)
    • Ausschließlich Einsatz von Web-Technologie (daher u. a. kein Powerpoint ...)
    • grundsätzlich keine proprietäre/kostenpflichtige Software, nur Open Source
    • Content Management System (CMS): WordPress
    • Backend: MySQL-Datenbank
    • Entwicklung zahlreicher "Tools" durch die Projektinformatiker, z. B.:
      • Interaktive online-Karte
      • LexikonAlpinum
      • Transkriptionstool
      • Typisierungstool
      • Crowdsourcingtool (Link)
      • ...
    • Multifunktionales Webportal:
      • Arbeitsinstrument für Erzeugung von Inhalten (Datensammlung, Datenverarbeitung und -aufbereitung)
      • Publikation von Inhalten
      • Kommunikation (z. B. Sitzungsprotokolle)

     

    4. Theorie der Forschungskommunikation in virtueller Umgebung1

    • Wesentlicher Teil des Selbstverständnisses: Selbstreflexion ⇒ Rubrik Methodologie (Verwendung im vorliegenden Beitrag)
    • Sprachwissenschaft und Informationstechnik nicht einfach additiv, sondern im aristotelischen Sinn mehr als die Summe der beiden Teile ⇒ Einsatz der Informationstechnik verändert Sprachwissenschaft substantiell (Wesen der DH ganz generell)

    Graphik 1

    • Die durch die technischen Möglichkeiten veränderten Rahmenbedingungen verlangen, die traditionellen Formen der Wissenschaftskommunikation2 zu überdenken und diese an den neuen Möglichkeiten auszurichten.
    • Entsprechende Reflexion und exemplarische Umsetzung ist eines der Ziele von VA

    Traditionell mit dem Medium des Buchdrucks

    Graphik 2

    • Drei Phasen:
      • Forscher sucht und sammelt Informationen (= Rohdaten von Quellen, Informanten)
      • Forscher verarbeitet und *selektiert* (theoriegebunden) Informationen
      • Forscher publiziert die Ergebnisse auf Papier (= öffentlicher medialer Diskurs)
        • ausschließlich 'finale' Relevanz des Publikationsmediums
        • teilweise Fremdbestimmung des AUTORs durch die VERLAGe (z.B. Sprachwahl)
        • extrem eingeschränkte Zugänglichkeit des Produkts (in Bibliotheksregalen)
    • feste Bindung der kommunikativen Rollen (AUTOR – QUELLE – LESER) an Personen

    Digital und im Web (2.0)

    • Web ermöglicht einen Neustart des öffentlichen medialen Diskurses ('auf Null')
    • genuin digital ('0' | '1')

    Graphik 3

    Publikation

    • permanente Relevanz von Publikationsmedien während des gesamten Forschungsprozesses
      • substantielle Änderung des Publikationsbegriff
        • nicht nur Text: alles im gestrichelten Oval von Graphik 3 ist publikationsfähig
        • Live-Daten können publiziert werden (Link)
      • Hoheit | Kontrolle in der Kompetenz des Projekts (100% selbstbestimmt)

    Graphik 4

    Transparenz der Daten

    • Relation zwischen den publizierten Informationen einsehbar
      • Beispiel Transkription: Original – Beta – IPA

    Graphik 5 – Link

    • im Fall von VA: LESER → Datenbankabfrage der Primärdaten

    Graphik 6 – Link

    Wechsel der kommunikativen Rollen

    im Fall von VA:

    • LESER → QUELLE (CS-Reaktion auf VA-Öffentlichkeitsarbeit)

    Graphik 7 – Beispiel Januar 2021 (Facebook) Link

    Graphik 8 – Beispiel April-Mai 2018 (HP BR, Bayern 2) Link

    • QUELLE → AUTOR
      • durch Eingabe neuer KONZEPTE, Button 'Begriffe vorschlagen', Link):

    Graphik 9

      • Definition und Fixierung eigener Karten

    Graphik 10 – Link

    5. Herausforderungen der Virtualität/Digitalität für die Forschungskommunikation

    • Vorteile des gedruckten Buchs:
      • dauerhaft
      • unveränderbar
      • stabil zitierbar ⇒ Titel, Seite/Spalte
      • institutionell abgesichert ⇒ Bibliotheken
    • Vorteile von Digitalität/Virtualität:
      • (theoretisch) grenzenlose Verfügbarkeit
      • elektronische Verknüpfbarkeit von Inhalten
      • vergleichsweise geringe Kosten
      • Erleichterung von Zusammenarbeit (Erzeugung von Inhalten durch große Anzahl von Beteiligten/Autoren)
      • Multimedialität (Text, Ton, Bild – auch in 3D)
      • Erleichterung des bidirektionalen Austausches Autor ⇔ Leser (etwa durch Kommentarfunktion)
      • Unabhängigkeit von Verlagen
      • ...
    • Wesentliche Nachteile der Digitalität/Virtualität:
      • prekäre Stabilität ("Flüchtigkeit"; dabei geht es um Änderungen im Detail genauso wie um vollständiges Verschwinden)
      • Fehlen eines verbindlichen Referenzsystems (Ersatz für Buchseiten)
      • bislang noch nicht etablierte Strukturen bzw. Zuständigkeiten

    ZIEL: Nutzung der Vorteile der Digitalität *ohne* Verlust der Vorteile des Buches

    Antworten von VA

    Prekäre Stabilität

    • Versionierung: Jeweils zu Jahresmitte und -ende "Einfrieren" des Datenbestands
      • Technisch: Anfertigung einer Kopie der Projektdatenbank:

    Graphik 11 – Die verschiedenen Versionen der VA-Datenbank auf dem MySQL-Datenbankcluster der ITG

      • Arbeitsversion: XXX (bedingt zitierfähig; Stabilität der Inhalte nicht garantiert)
      • Wechsel in Zitierversionen ⇒ Inhalte garantiert stabil

    Graphik 12

    • In zitierfähigen Versionen von VA: Einblendung von Zitierlinks:

    Graphik 13 – Zitierlink in der Version 20/2 von VerbaAlpina

    Adressierbarkeit

    Feingranulare URLs/DOIs

    VA und Normdaten

    • Normdaten generell wichtig für inhaltlich/semantisch exakte und außerdem maschinell operationalisierbare wechselseitige Referenzierung zwischen verschiedenen Datenbeständen (im Sinne der Forschungskommunikation)
    • Vorteile von Normdaten:
      • Normdaten schließen Ambiguitäten aus
      • Normdaten vereinfachen Datenmappings:

    Graphik 14 – Vereinfachtes Mapping durch Verwendung  von Normdaten

      • Normdaten müssen klar definiert und stabil sein
      • Normdaten entfalten maximalen Nutzen bei maximaler Akzeptanz (nicht steuerbar)
    • VA-Nutzung externer Normdaten:
      • Identifikatoren von Referenzlexika (für morpholexikalische Typen)
      • Wikidata-QIDs (für Konzepte)
      • Geonames-IDs (für Georeferenzen)
      • künftig?: Wikidata L-IDs (für morpholexikalische Typen; aktuell problematisch, da mit VA inkompatibel)

    Graphik 15 – Einbindung externer Normdaten (Geonames, Wikidata-QIDs, URLs von Referenzwörterbüchern) – Link

    Graphik 16

    Basistyp B180 im XML-Format (Screenshot)

    Institutionelle Absicherung

    • Wesentlicher Aspekt: Für die dauerhafte Bewahrung von Wissen braucht es verantwortliche Institutionen mit unbefristeter Existenzperspektive
    • Aus Sicht von VA sind die wissenschaftlichen Bibliotheken der natürliche Partner
    • VA hat sich daher schon früh an die UB der LMU gewandt
    • VA-Daten werden in das Forschungsdatenrepositorium der UB übertragen (Entwicklung der entsprechenden Prozeduren in den letzten Jahren)
    • seit Mai 2021: Discover@UB:

    Graphik 17 – Suchportal des UB-Forschungsdatenrepositoriums (Link)

      • Strukturierter Kerndatenbestand von VerbaAlpina
      • derzeit 222630 Datensätze (Versionen 19/1 und 19/2)
      • unterschiedliche Granularität (komplette Versionen,
      • Einbindung von generischen Metadaten (Datacite, DDC)
      • Ad-Hoc-Erzeugung von DOIs für Einzelobjekte

    Graphik 18 – Ad-Hoc-Erzeugung einer DOI für einen VA-Datensatz auf Discover@UB (Link)

    • Neben UB: Enge Anbindung an ITG
    • ITG übernimmt Betrieb und Pflege des VA-Portals auch über das Projektende hinaus ("post mortem"; im Rahmen der technischen und personellen Möglichkeiten)

    Graphik 19 – Institutionelle Einbettung von VerbaAlpina

    Ungelöstes (unlösbares?) Problem: "Lebende" Systeme (Webportale)

    • Dauerhafter, unbefristeter Betrieb von Webportalen bedarf permanenter Pflege
    • Zwei Kernprobleme:
      • Ständige Veränderung der Softwareumgebung (Betriebssysteme, Frameworks) ⇒ Updates (v. a. wegen Sicherheitsproblematik)
      • Abhängigkeit von externen Ressourcen durch Vernetzung ("tote" Links; instabile Inhalte)
    • Beispiel für Abhängigkeit: VA auf archive.org:

    Graphik 20 – Fehlermeldung von Google auf der frühesten bei archive.org archivierten VerbaAlpina-Version

    • ⇒ gekapselte Systeme (z. B. Dockerimages) keine Lösung wegen Abhängigkeiten durch Vernetzung
    • Notbehelf: Detaillierte Dokumentation der Funktionsweise des Webportals (zusammen mit Dokumentation von Datenbank und entwickeltem Softwarecode ⇒ Künftige "Rekonstruktion" der Funktionalitäten des Webportals zumindest theoretisch möglich)

     

    Wir danken für Ihre Aufmerksamkeit!

    ***


    1. Die Überlegungen dieses Kapitels gehen im Kern auf Krefeld 2011 zurück; sie flossen also bereits in die Konzeption von VerbaAlpina ein und wurden im Zuge der Projektarbeit kontinuierlich elaboriert. 

    2. Der Ausdruck wird oft enger gefasst und im Sinne von "externer Forschungskommunikation" verwandt; dann bezeichnet er ausschließlich die divulgative "Kommunikation von Forschung über Fachgrenzen hinaus", so z. B. von Knöchelmann 2021; diese Verwendung wird der medialen Grundlage von Kommunikation und ihrer radikalen Veränderung nicht gerecht. Webbasierte Kommunikation muss gerade nicht trennscharf zwischen Laien- und Fachpublikum unterscheiden, sondern kann sich gleichermaßen – wenn auch nicht in identischer Weise – sowohl an das eine wie an das andere wenden. 


    Bibliographie

    • Knöchelmann 2021 = Knöchelmann, Marcel (2021): Die Stunde der Vermittler, in: FAZ vom 19.5.2021, 4
    • Krefeld 2011 = Krefeld, Thomas: La raccolta di dati linguistici ai tempi dei nuovi media, Palermo, in: Gruppo di ricerca dell'Atlante Linguistico della Sicilia (Hrsg.), Per i linguisti del nuovo millennio. Scritti in onore di Giovanni Ruffino, Sellerio, 111-114

    VerbaAlpina going FAIR – Was ein Projekt zu seiner Nachhaltigkeit beitragen kann (und was nicht) (Zitieren)

    Thomas Krefeld | Stephan Lücke
    (2780 Wörter)

    Dieser Vortrag wurde für den Workshop Datensicherung im Forschungsprozess
    geschrieben, der vom FID Romanistik in Verbindung mit der AG Digitale Romanistik organisiert und online durchgeführt  wurde (Bonn, 26./27.11.2020)

    Eine Perspektive mit Horizonterweiterung

    Unser Beitrag zielt auf sehr grundsätzliche Fragen; er ist jedoch aus der ganz konkreten Arbeit am geolinguistischen Projekt VerbaAlpina entstanden, genauer gesagt: aus der kontinuierlichen methodologischen Reflexion, oder:  aus der notwendigen theoretischen Selbstvergewisserung der mit dem Projekt befassten sieben Wissenschaftler, deren Arbeitskraft je zur Hälfte in die Informatik und in die Sprachwissenschaft investiert wird. Das Langzeitvorhaben der DFG, das seit 2014 gefördert wird, hat jedoch eine mehrjährige Vorgeschichte in Gestalt kleiner Projekte, von den zwei genannt werden sollen, nämlich:

    • der Atlante sintattico della Calabria (AsiCa; 2004-2007) – der inzwischen einen Relaunch als AsiCa 2.0 (2020) erfahren hat – und
    • der Audioatlas siebenbürgisch-sächsischer Dialekte (ASD; (2010-2013).

    Das zuerst genannte Projekt markiert den für uns ebenso grundlegenden wie radikalen Übergang von traditioneller, auf Printpublikation zielender Arbeit zum systematischen und kategorischen Einsatz von Webtechnologie; denn der ursprünglich für den Druck entworfene AsiCa wurde im Verlauf seiner Durchführung methodologisch rekonzipiert und vom dialektologischen Kopf auf die informationstechnischen Füße gestellt. – Seitdem läuft er übrigens, auch noch in der ursprünglichen, von Stephan Lücke entwickelten Version, unermüdlich im Web.

    Es waren also bereits vor dem Projektantrag Erfahrungen entstanden, und es wurde eine klare Perspektive fixiert, die bis heute gilt: Anvisiert wird die systematische Umstellung dieser linguistischen Subsdisziplin auf Webtechnologie – von Digital Humanities war zu der Zeit noch nicht die Rede und das Web 2.0 nahm just in diesen Jahren Gestalt an. So war es unvermeidlich, dass sich der Horizont von Projekt zu Projekt substantiell erweiterte und dass mit VerbaAlpina eine umfassende virtuelle Forschungsumgebung mit komplementären Funktionalitäten eingerichtet werden konnte. Im Rückblick ist man erstaunt, mit welcher Selbstverständlichkeit sich die mediale Horizonterweiterung in unserem Forschungsprozess abbildet, denn eigentlich war diese Entwicklung alles andere als ‘selbstverständlich’ und ohne die institutionellen Rahmenbedingungen an der LMU wäre es nicht dazugekommen. So ist man geneigt sich die Augen zu reiben und schlicht festzuhalten:  "Yes, we could".

    Die methodologisch wichtigste Erfahrung war – und ist – wohl die permanente Herausforderung mit den ständig neuen Optionen der äußerst dynamischen Digital Humanities umzugehen. Es wurde daher das Prinzip festgeschrieben, alle konzeptionellen Grundbegriffe und ihre Entwicklung nicht nur umzusetzen, sondern auch in diskursiver Gestalt festzuhalten und zugänglich zu machen; diese oft sehr prägnanten und nicht sehr ausführlichen Texte finden sich unter dem Reiter Methodologie. Die Projektarbeit verfestigt sich also nicht nur in einem technischen und maschinenlesbaren Speicher sondern auch in einem menschlichen und menschenlesbaren Gedächtnis.

    VerbaAlpina untersucht die romanischen, germanischen und slawischen Dialekte des Alpenraums; in ausgewählten Gegenstandsbereichen wird:

    • möglichst viel lexikalisches Material erfasst,
    • im Verbund – gewissermaßen als Mosaik aus vielen Steinchen – visualisiert
    • und lexikographisch typisiert.

    Die Visualisierung erfolgt kartographisch. Es müssen also zahlreiche Quellen zusammengefügt werden, wie diese Auswahl zeigt. Die Quellen sind ganz verschiedenartig; den größten Teil bilden Sprachatlanten, wie z.B. der AIS, aber teils sehr umfangreiche Wörterbücher, wie z.B. der DRG kommen hinzu und ergänzen sich in der Dokumentation (vgl. diesen Ausschnitt). Bereichert werden diese wissenschaftlichen Quellen durch Crowd-Daten (vgl. die aktuelle Statistik). Unterschiedlich sind jedoch nicht nur die Quellengattungen, sondern auch ihre medialen Repräsentationen, denn manche liegen in gedruckter Form, andere in digitalen Formaten, wie z.B. der ALD-I und dritte in (noch) nicht publizierter, handschriftlicher Dokumentation vor, wie teilweise der SAO. Im übrigen wurden ganz unterschiedliche Transkriptions- und Schreibweisen verwandt. Es mussten also von Anfang an Prozeduren entwickelt werden, um die Daten in transparenter Weise in ein gemeinsames Format zu bringen.

    Die lexikographische Typisierung, d.h. die Zusammenfassung von dialektalen Varianten unter gemeinsamen Nennformen (Lemmata), erfolgt von Hand; sie wird jedoch durch den systematischen Einbezug von – wenn irgend möglich – online verfügbaren  Referenzwörterbüchern abgesichert, deren Lemmata einzeln angesprochen werden können, wie dieses Beispiel zeigt.

    Eine Implementierung der technischen Prozeduren zur Verknüpfung und Aggregation von Daten aus unterschiedlichen Beständen setzt jedoch das Einverständnis der Wissenschaftler*innen voraus, die für die eingebundenen Daten zuständig sind; auch das ist keineswegs selbstverständlich, so dass Strategien gefordert sind, um diejenigen, die über relevante Daten verfügen von geeigneten Lizenzierungsbedingungen (hier: CC BY SA)  zu überzeugen und durch formale Vereinbarungen (vgl. Kooperation) zu Partnern zu  machen (vgl. die Liste VA-Partner); diese Bemühungen sind uns nicht immer, aber doch meistens  gelungen. Daraus ist ein dichtes Netz kollaborativer Routinen hervorgegangen, das auch von außen als solches wahrgenommen wird, denn mittlerweile kommen bislang nicht teilnehmende Projekte mit Kooperationsanfragen auf uns zu, zuletzt das Dialektologische Informationssystem für Bayerisch-Schwaben (DIBS)

    Man kann festhalten, dass die inhaltlichen Anforderungen der Geolinguistik eine grundsätzlich offene – das heißt potentiell über das initiale Projekt hinausweisende – Forschungsumgebung nahelegen, so bald man sich vom Druck als Medium der Publikation verabschiedet.

    Digitale Medien im Forschungsprozess

    Es wird in den geisteswissenschaftlichen Disziplinen zu wenig reflektiert, dass sich der methodologische Status der Medien im Forschungsprozess von Grund auf ändert, sobald man die Perspektive der Digital Humanities einnimmt: Traditionelle Forschungspraxis zielt auf den Druck, und die gedruckte Publikation schließt den vorhergehenden Forschungsprozess definitiv ab; das Medium des Druck ist gewissermaßen der Tod des Projekts, denn alle Daten (wenn man davon sprechen darf), die für die Produktion des Buchs gebraucht wurden, sind dem direkten Zugriff nach dem Druck entzogen; sie können keinerlei Produktivität in anderen Projekten erlangen und im Nachhinein allenfalls häppchenweise zitiert werden.

    In webbasierter Forschungsarbeit ist das Medium – die mediale Zugänglichkeit – dagegen das Lebenselixir der Daten: Sie leben solange, wie menschliche oder maschinelle Nutzer auf sie zurückgreifen; Phasen ohne Zugriff versetzen sie nur in Schlaf, aus dem sie jederzeit wieder geweckt werden können. Die Medien sind so zu einer fundamentalen Komponente des Forschungsprozesses geworden; Forschungsarbeit ist jenseits der Medien gar nicht mehr möglich. Im Fall von VerbaAlpina wurden die Konzeption und Implementierung einer entsprechenden webbasierten Forschungsumgebung seit Arbeitsbeginn aus dem Projekt selbst heraus systematisch und erfolgreich umgesetzt. De facto kam VerbaAlpina damit bereits den erfüllbaren Forderungen nach, die erst im Laufe der Projektarbeit durch eine wichtige Initiative unter dem praktischen, aber unscharfen Akronym FAIR auf einen gemeinsamen Nenner gebracht wurden. Einschränkend muss man allerdings sofort hinzusetzen, dass diejenigen, die auf FAIRness verpflichtet werden, die Projektverantwortlichen, damit auch heillos – und unheilbar – überfordert sind, denn unausgesprochene Voraussetzungen dieser Forderungen können sie gar nicht erfüllen: Ihrem eigentlichen, das heißt medial angemessenen Zweck kann eine solche Umgebung nämlich erst dann gerecht werden, wenn sie auch noch durch Forscher ‘begangen’ und weiterentwickelt werden kann, die mit uns, d.h. mit den Wissenschaftlern, die ihre ursprüngliche Konzeption und Einrichtung in Werk gesetzt haben, gar nichts mehr zu tun haben. Es braucht ja keine visionäre Begabung, um den großen Mehrwert zu sehen, der sich ergibt, wenn über die Alpen hinaus die zahlreichen Sprachatlanten und Dialektwörterbücher des zusammenhängenden europäischen Sprachraums aus ihrer Datenfriedhofsruhe geweckt und in einem einzigen organischen Datenverbund belebt werden könnten – so wie der riesige Ficus an der Piazza Marina in Palermo aus einer Vielzahl von tragenden Stämmen besteht, die unter der Erde wie im Geäst an unterschiedlichsten Stellen zusammengewachsen sind, weil die Zellstruktur der Pflanze überall dieselbe ist.  

    Es erübrigt sich darauf hinzuweisen, dass die hier am Beispiel der Geolinguistik skizzierten Erfahrungen, mutatis mutandis, von Forscher*innen aller linguistischen Subdisziplinen und vermutlich aller geisteswissenschaftlichen Disziplinen überhaupt gemacht werden, sobald sie die Perspektive der Digital Humanities einnehmen: Die technischen Bedingungen zur Einrichtung und zum Betrieb umfassender, offener Forschungsumgebungen sind gegeben und erprobt; ihre Gewährleistung liegt indes jenseits der Möglichkeiten von Projektverantwortlichen: Infrastrukturen verdienen ihren Namen erst dann, wenn sie Persistenz erlangen, auf die sich die ebenso unübersichtliche wie produktive Forschungspraxis verlassen kann. Forschungspraxis sollte FAIR sein, aber nachhaltig im strengen Sinn sind nur Strukturen und niemals Projekte (auch dann nicht, wenn sie den suggestiven Ausdruck Struktur in ihrem irreführenden Namen tragen). 


    Grundlegende Fakten, Thesen und Positionen

    VerbaAlpina versteht sich als rein digitales Forschungsprojekt und setzt sich seit seinem Start mit den unterschiedlichen Konsequenzen und Herausforderungen dieser Ausrichtung auseinander.

    Vorab einige Feststellungen grundsätzlicher Natur. Anschließend stellen wir eine Reihe von Maßnahmen vor, die VerbaAlpina konkret umsetzt, um seine Projektergebnisse nachhaltig zu bewahren.

    Infrastruktur

    • Projekte sind zeitlich befristet
    • Wir unterscheiden die folgenden Projektphasen:

    ab ovo          —            in vita          —           post mortem

    • Ressourcen (Personal und Infrastruktur) stehen nur bis zum Projektende zur Verfügung
    • Vom Projekt erzeugte Daten müssen nach Projektende möglichst unbefristet verfüg- und nutzbar sein. Es gibt keinen Grund, von vornherein von einer Art "Ablaufdatum" auszugehen.
    • Das Konzept des "Life-Cycles" suggeriert ein Werden und Vergehen. Ein lineares Modell mit einem in die Zukunft gerichteten offenen Zeitstrahl erscheint angemessener.
    • Während der Projektlaufzeit erfolgen die Datengenerierung und Datenkuratierung durch die Projektmitarbeiter
    • Nach Projektende muss die *Verantwortung* für die Datenkuratierung von jemand anderem übernommen werden
    • Dabei sollte es sich um eine kompetente, verlässliche, nicht-kommerzielle Institution mit unbefristeter Existenzperspektive handeln.
    • Es bedarf *klarer*, möglichst verbindlicher Regelungen und Zuständigkeiten. Es kann nicht sein, dass Projekte sich individuelle Lösungen überlegen müssen, was mit ihren Daten nach Projektende passiert.

    Daten

    • Was sind Forschungsdaten? Diese Frage ist am besten pragmatisch zu beantworten: Forschungsdaten sind sämtliche Daten, die von einem Projekt zu solchen erklärt werden.
    • Voraussetzung: Forschungsdaten müssen kohärent, konsistent und aus sich heraus verständlich sein.
    • Damit Daten aus sich heraus verständlich sind, müssen sie möglichst umfangreich und allgemein verständlich erläutert und dokumentiert sein.
    • Sämtliche Daten, die wechselseitig auf einander bezogen sind, dürfen nicht getrennt und müssen als Einheit betrachtet und langfristig bewahrt werden.
    • Anders formuliert: Daten, die andere Daten untermauern, dürfen nicht von diesen getrennt werden (klassisches "Forschungsdaten"-Szenario; z. B. Löschung von Messdaten)
    • Zentrales Problem der Digitalität ist die "Flüchtigkeit" der Daten
    • Herausforderung: Erzeugung von Stabilität
    • Paradigma: Das gedruckte Buch – Digitale Daten müssen genauso verlässlich auffind- und referenzierbar sein, wie beim Buchdruck
    • Daten sollten nach Möglichkeit im Internet verfügbar sein
    • Dabei sollte genuine Webtechnologie zum Einsatz kommen. – Pseudo-Digitale Technologien wie PDFs sollten gemieden, bestenfalls sekundär als Derivat zum Einsatz kommen. [Aus diesem Grund verzichten wir beim vorliegenden Beitrag auch auf den Einsatz von "Folien"]
    • Probate Mittel: Erzeugung von stabilen Datenbestandsversionen, Definition von ontologischen Entitäten, Erzeugung und Nutzung von Normdaten, Feingranulierung des Datenbestands, Verwendung von stabilen PIDs (z. B. DOIs)
    • Zumindest für den Bereich der Geisteswissenschaften sollte gelten: Die Quantität spielt im Hinblick auf die nachhaltige Bewahrung der Forschungs-/Projektdaten keine Rolle

    VerbaAlpina

    Unsere Infrastruktur

    • Zeitliche Begrenzung: DFG-Langfristvorhaben seit 2014 mit Perspektive bis 2025
    • Personal: 2 Projektleiter (unterschiedliche Zuständigkeiten), 3 Sprachwissenschaftler, 2 Informatiker, mehrere Hilfskräfte. Bislang zwei Personalwechsel im Bereich der wissenschaftlichen Mitarbeiter. Hinzu kommt eine Aufstockung im Bereich der Informatik zu Beginn der zweiten Förderphase.
    • Technische Infrastruktur: Nutzung der Ressourcen der IT-Gruppe Geisteswissenschaften (ITG) der LMU (professionelle IT-Umgebung mit hochverfügbarem, redundantem Datenbankcluster, Webservern, Backupverfahren, eigenem Personal für Systemadministration)

    Unsere Daten

    • Wie schon gesagt: *rein* digital und übers Internet verfügbar
    • Heterogen:
      • hochgradig strukturierte Daten in einer MySQL-Datenbank
      • erläuternde und analytische Fließtexte
      • Computercode
      • Mediendaten (Bilder, Videos, Ton)
    • Die jüngste Version der MySQL-Datenbank von VA umfasst rund 1,8 GB. Eine Vervielfachung des Datenvolumens ergibt sich allerdings durch die Erzeugung von vollständigen Kopien der VA-Datenbank im Rahmen der halbjährlichen Versionierungen:

      Entwicklung der VA-Datenbank seit der ersten Versionierung im zweiten Halbjahr 2015. Das an einer Stelle sinkende Volumen ist durch Umstrukturierungen und Konsolidierungen zu erklären. Der nicht lineare Anstieg ist meist durch punktuellen Massenimport von Daten aus Partnerprojekten zu erklären.

      Alle Versionen der VA-Datenbank zusammen umfassen bislang rund 13,6 GB. Hinzu kommen die Daten des Webmoduls, also des Internetportals inklusive der Mediendateien, aktuell 37,7 GB. Alles in allem ergibt das 51,3 GB.

    FAIR-Compliance von VerbaAlpina

    • Was sich hinter dem Akronym FAIR verbirgt, ist bekannt. Klar ist auch, dass schon die Abgrenzung der in FAIR versammelten Postulate gegeneinander unscharf ist. So ist z. B. Auffindbarkeit von Daten eine unverzichtbare Voraussetzung für deren Nachnutzung.
    • Bislang besteht keine *Verpflichtung* zur Einhaltung dieser Regeln

    VerbaAlpina hat die Frage der Nachhaltigkeit und die Erfüllung der FAIR-Kriterien stets im Blick. Wir begegnen der Herausforderung mit einer ganzen Reihe von Maßnahmen. Deren Zuordnung zu den Teilbereichen des FAIR-Komplexes ist intuitiv und im Einzelfall diskutabel (s. die roten Anmerkungen von Thomas Krefeld); sie ist in Klammern hinter den einzelnen Punkten angegeben. Auch die Reihung der Maßnahmen ist intuitiv, folgt aber grosso modo dem Gedanken der abnehmenden Bedeutung.

    • Fundamental: Bewusstsein – Planung – Wachsamkeit – Flexibilität (FAIR)
    • Sorge um institutionelle Absicherung für die Phase post mortem: Suche nach geeigneten PartnernVA-Favorit: Die UB der LMU (FAIR)
    • Beteiligung an FD-Projekten (VA als Pilotprojekt bei GeRDI [Generic Research Data Infrastructure] und eHumanities – interdisziplinär) (FAIR)
    • Anreicherung mit standardisierten Metadaten nach dem Datacite- und dem Cidoc-CRM-Standard (FAI)
    • Generierung eigener und Nutzung fremder Normdaten (eigene Normdaten [Beispiel "Anke (gem m.)"] : VA-IDs für Einzelbelege, Morpholexikalische Typen, Konzepte und Orte; externe Normdaten: Wikidata-QIDs, geonames, PIDs von Partnerprojekten) (FAI)
    • Definition/Spezifizierung zentraler Entitäten (Einzelbelege – Morpholexikalische Typen – Konzepte – Orte) und entsprechende Feingranulierung der zentralen Projektdaten (I)
    • Überwiegender Einsatz von Webtechnologie: Webbasiertes multifunktionales Projektportal (https://dx.doi.org/10.5282/verba-alpina) (FAI)
    • Verwendung offener Lizenzen, möglichst CC BY-SA (nicht NC!)I (R)
    • Detaillierte Dokumentation möglichst aller Aspekte des Projekts in der Sektion Methodologie (R) #nicht auch Unterstützung von I ??#
    • Nutzung einer professionellen IT-Umgebung (konkret: der ITG) mit hoher Verfügbarkeit, Redundanzen und Backup-Verfahren (AI)
    • Verwendung und Entwicklung von Open Source Software (R) #nicht auch Unterstützung von I?#
    • Nach Möglichkeit Verzicht auf proprietäre Dateiformate (R)
    • Übertragung der VA-Daten in das Open-Data-Repositorium der UB der LMU (in Vorbereitung) (R)
    • Dadurch (Danach ...) Integration der Metadaten in die einschlägigen Discovery-Systeme der UB der LMU (OPAC, Blacklight [Screenshot]) (FA)
    • Ablage des Computercodes  für Funktionalitäten von Front- und Backend des Webportals auf Github unter einer offenen Lizenz (https://github.com/VerbaAlpina/; s. Nachnutzung durch das Projekt VerbaPicardia [VP-Karte]) (R)
    • Versionierungskonzept und Generierung von PIDs/stabilen URLs (IR)
    • Einrichtung einer API  (u. a. XML-Export) (IR)
    • (versuchsweiser) Betrieb einer älteren Version des "lebenden" VA-Webportals in einer Hyper-V-Umgebung der LMU UB (https://verba-alpina-archiv.ub.uni-muenchen.de/; aus Sicherheitsgründen seit einigen Monaten nur noch innerhalb des UB-Netzes verfügbar)
    • Ablage älterer Versionen des VA-Web-Portals auf archive.org (R)
    • (https://web.archive.org/web/*/http://verba-alpina.gwi.uni-muenchen.de/) (R)

    Resumée

    VerbaAlpina bemüht sich durch eine Vielzahl von Maßnahmen um Nachhaltigkeit seiner Projektergebnisse. Bislang ungelöste Probleme sind die folgenden:

    • Das Fehlen einer verlässlichen, dauerhaften und vor allem leistungsfähigen Infrastruktur, die die Verantwortung für die Bewahrung von Projektdaten über das Ende eines Projektes hinaus übernimmt. Die Universitätsbibliotheken besitzen zwar die nötige fachliche Kompetenz, Verlässlichkeit und unbefristete Existenzperspektive, sind bislang nach unserer Einschätzung jedoch nicht mit ausreichenden personellen, technischen und finanziellen Ressourcen ausgestattet, um dem stetig wachsenden Bedarf gerecht zu werden.
    • Der dauerhafte Betrieb des zentralen Webportals als lebendem System. Dieses bedarf permanenter Pflege durch Systemadministratoren und in unregelmäßigen Abständen eines sog. Re-Engineerings, das den Programmcode an neue Versionen der Serversoftware anpasst. In der Vergangenheit war das z. B. beim Wechsel von einer PHP Version zur nächsten der Fall.
    • Ein weiteres großes Problem stellt die Vernetzung dar. Diese stellt einerseits eine ganz wesentliche Errungenschaft und Bereicherung dar, ist gleichzeitig jedoch herausfordernd. Jeder kennt das Phänomen von toten Links. Ein anderes Beispiel ist die Nutzung von Google-Karten auf Projektseiten, so wie auch VerbaAlpina dies anfänglich getan hat. Bei Änderungen der Nutzungsbedingungen, besonders beliebt bei kommerziellen Dienstanbietern wie Google, oder auch technischen Modifizierungen (auch hier wieder das Beispiel Google mit seiner API) brechen unter Umständen zentrale Elemente eines Projektportals in sich zusammen. Dies ist schon ärgerlich während der in vita Phase eines Projekts, wobei man dann normalerweise noch wird reagieren können. Richtig schwierig ist es post mortem, da dann keine Ressourcen mehr verfügbar sind.

    Aktuell befindet sich noch vieles im Umbruch. Die Herausforderungen der tiefgreifenden Digitalisierung der gesamten Forschungslandschaft sind noch relativ neu. Es wird derzeit noch nach geeigneten Lösungen gesucht. In diesem Kontext steht u. a. oder auch v. a. die NFDI-Initiative. Wir vertreten die Auffassung, dass möglichst stabile institutionelle Lösungen geschaffen oder genutzt werden müssen, die über eine möglichst langfristige, im Idealfall unbefristete Existenzperspektive verfügen. Vor diesem Hintergrund erscheinen uns projektgebundene Ansätze mit von vornherein festgelegtem Ablaufdatum ungeeignet, um die unbefristete Verfügbarkeit von Forschungsdaten zu gewährleisten. Solange sich noch keine stabilen Lösungen etabliert haben, können Projektverantwortliche nur die laufenden Entwicklungen verfolgen und – soweit dies personell und zeitlich möglich ist – ggf. mehrgleisig fahren, sprich: die eigenen Daten in verschiedenen Formaten bei unterschiedlichen Partnern oder Dienstleistern unterzubringen versuchen. Die permanente Überprüfung der eigenen Nachhaltigkeits-Strategie ist unerlässlich.


    Bibliographie

    • AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
    • ALD-I = Goebl, Hans (1998): Atlant linguistich dl ladin dolomitich y di dialec vejins I, vol. 1-7 (sprechend: http://ald.sbg.ac.at/ald/ald-i/index.php), Wiesbaden, vol. 1-7, Reichert. Link
    • DRG = De Planta, Robert/ Melcher, Florian/ Pult, Chasper/ Giger, Felix (1938ff.): Dicziunari Rumantsch grischun, Chur, Inst. dal Dicziunari Rumantsch Grischun. Link
    • SAO = Adalbert-Stifter-Institut des Landes Oberösterreich (Hrsg.) (1998ff.): Sprachatlas von Oberösterreich

    VerbaAlpina erklärt sich selbst – Teil 2: Informationstechnik (Zitieren)

    Stephan Lücke
    (1974 Wörter)

    Grundsätzliches

    • VerbaAlpina (VA) beschäftigt sich mit der Frage, welche Bezeichnungen es für ausgewählte, für den Alpenraum typische Konzept/Begriffe es gab und gibt
    • VA ist mit diesem Ziel ein von der DFG gefördertes Langfristvorhaben mit Perspektive bis 2025 (derzeit dritte Teilphase [2019-2022] in Beantragung)
    • Die Untersuchung ist auf den Alpenraum beschränkt
    • Die Grenze des Untersuchungsgebiets ist das Perimeter der sog. Alpenkonvention (Link)
    • Das Sprachmaterial stammt hauptsächlich aus sog. Sprachatlanten und Wörterbüchern (letztere nur, wenn sie Auskunft über die regionale Verbreitung der verzeichneten Wörter geben; Beispiel: Idiotikon)
    • Neben Sprachatlanten und Wörterbüchern verwendet VA Methoden des Crowdsourcing ("citizen science") zur Sammlung von Sprachmaterial (dazu später mehr)
    • VA fragt nach der Verbreitung von Wörtern innerhalb des Alpenraums (welche Wörter werden wo verwendet und welche Bedeutung haben sie dort?)
    • Im Hinblick auf die Wörter ist VA im Wesentlichen an sog. Morpholexikalischen Typen (Morphtypen) interessiert. Diese sind letztlich vergleichbar mit den Lemmata von Wörterbucheinträgen
    • Ein Morphtyp im Sinn von VA wird definiert durch
      • die Orthographie,
      • die Zugehörigkeit zu einer Sprachfamilie (germanisch, romanisch, slawisch),
      • die Wortart,
      • das Genus und
      • die Affigierung (letztere z. B. -chen in Häuschen ⇒ eigener Morphtyp neben Haus)
      • Beispiel: la malga (romanisch, feminin, ohne Affigierung); zwei Morphtypen: die Butter und der Butter
    • VA befasst sich in der Hauptsache mit Dialektausdrücken (also nicht mit den Hochsprachen)
    • VA ist nur nachrangig an phonetischer Variation interessiert
    • Das geographische Bezugssystem innerhalb der Alpenkonvention wird durch die politischen Gemeinden gebildet (5771; statisches Referenzystem; Änderungen werden nicht berücksichtigt)
    • VA besitzt neben der diatopischen auch eine diachronische Dimension (Veränderungen über die Zeit; Sprachatlanten z. T. aus der 1. Hälfte des 20. Jh. ⇔ Daten aus dem Crowdsourcing von heute)
    • Die Kernentitäten von VA sind demnach:
      • Morphtyp
      • Konzepte (zur Unterscheidung von Wörtern stets in Versalien geschrieben; BUTTER meine das Konzept, also die Sache als solche; Butter hingegen meint das Wort "Butter")
      • Gemeinden
      • [Zeit]

    ⇒ Das Wort xy wurde/wird in den Jahren jjjj in der/den Gemeinde(n) yz zur Bezeichnung des Konzepts KO verwendet

    • Die Wechselbeziehung von Morphtypen und deren Bedeutung erzeugt vor dem Hintergrund von Raum und Zeit eine enorme Komplexität:

    Zu den Kernentitäten gehört auch der sog. Basistyp. Damit sind Wörter gemeint, die in irgendeiner Weise ganz offenkundig mit einem Morphtypen verbunden sind, ohne dass der Zusammenhang im Detail geklärt werden kann. In aller Regel handelt es sich dabei um ältere Vorstufen. Hierzu ein Beispiel:

    Das deutsche Wort Salamander hängt unverkennbar mit dem italienischen salamandra zusammen. Das Wort salamandra gab es schon im Lateinischen (Georges). Für das deutsche Salamander stellt sich nun die Frage, ob es sich direkt aus dem Lateinischen entwickelt hat (Etymologie-Szenario) oder ob es später aus dem Italienischen übernommen worden ist (Entlehnungs-Szenario). Fragen dieser Art sind häufig nur mit sehr großem Aufwand – wenn überhaupt – zu entscheiden. Dennoch besteht unverkennbar eine Verbindung. Um diese dokumentieren zu können, hat VA den Basistyp eingeführt. (anders als im Fall von lat. salamandra können manche Basistypen keiner spezifischen Sprache zugeordnet werden. Gleichwohl muss es sie gegeben haben. In solchen Fällen wird ein Basistyp rekonstruiert [Kennzeichnung durch * vor dem Basistypen]; Beispiel: *cala als Basistyp z. B. von frz. chalet)

    • In Sprachatlanten und Wörterbüchern werden vielfach keine Morphtypen, sondern Einzelbelege oder phonetische Typen dokumentiert (z. B. Kaas, Chaas, Käs – alles Varianten des Morphtyps der Käse) ⇒ Quelldaten müssen klassifiziert werden (sog. "Typisierung")
    • Im Zuge der Typisierung verknüpft VA nach Möglichkeit einen Morphtyp mit einem korrespondierenden Eintrag in einem sog. Referenzwörterbuch. Liste der Referenzwörterbücher (Beispiel: der Morphtyp "malga|rom|f|nicht affigiert" entspricht dem Eintrag malga im Vocabolario der Treccani; http://www.treccani.it/vocabolario/malga/)
    • VA sammelt bis zu einem gewissen Grad auch Daten zur sog. außersprachlichen Peripherie. Als Beispiel können die Fundorte lateinischer Inschriften im Alpenraum genannt werden. Diese geben können einen Hinweis auf die Intensität der Romanisierung geben. Dies wiederum kann etwa die heutige Verbreitung romanischer Basistypen in bestimmten Regionen mehr oder weniger plausibel erscheinen lassen.

    Technik

    • VA ist ein rein digitales Projekt – praktisch vollkommener Verzicht auf traditionelle papiergebundene Methoden
    • verwendet Standardsoftware, quasi ausschließlich open source
    • knapp 50% der Projektbeteiligten sind im Informatik-Sektor des Projekts tätig (2 wiss. Mitarbeiter, 1 Hilfskraft)

    Backend und Frontend

    Backend

    • Backend wird gebildet von einer MySQL-Datenbank
    • Vorteile der MySQL-DB:
      • Web-fähig
      • an der ITG herrscht seit langem Expertise
      • große Anzahl weiterer Projektdaten in der selben Server-Umgebung (MySQL-Cluster), so dass technische/inhaltliche Verknüpfung theoretisch möglich (Demo)
    • Die VA-DB ist im Lauf der Zeit immer komplexer geworden (normaler Vorgang) – aktuell 156 Tabellen (Demo)
    • Tabellen der Kernentitäten:
      • Einzelbeleg: Tabellen "aeusserungen" und Tabelle "tokens"
      • Morphtyp: Tabelle "morph_typen"
      • Konzept: Tabelle "konzepte"
      • Ortschaft: Tabelle "orte"
      • Die Zusammenhänge zwischen den einzelnen Entitäten sind in der Datenbank aufgrund der sog. Normalisierung nur durch komplexe Operationen darstellbar. Nur eine kurze Skizze: Beispiel id_aeusserung = 89349
      • Daher Bündelung der verteilten Informationen in sog. Datenzugriffsschicht: vap_ling_de ("Human-readable interface"; in mehreren Sprachen verfügbar) und z_ling (für Maschinen)
    • jeweils aktuelle Arbeitsversion trägt den Namen va_xxx
    • VA-DB wird alle halbe Jahre versioniert
      • Erzeugung einer DB-Kopie, an der nichts mehr geändert wird.
      • Suffix: _jjh (j=Jahr; h=Halbjahr), z. B. va_191: Datenbankversion der ersten Jahreshälfte 2019 (erzeugt Ende Juni/Anfang Juli; die Versionen der 2. Jahreshälfte werden gegen Ende Dezember erzeugt).
      • Wichtig für Gewährleistung der Zitierfähigkeit! Ein Wechsel zwischen den Versionen ist im Frontend von VerbaAlpina möglich (Demo)
    • neben der VA-DB existiert eine Reihe von Datenbanken der offiziellen VA-Partner (Kooperationsvereinbarungen; bislang insgesamt 53). Präfix: pva_ (= Partner von VerbaAlpina; Demo)

    Frontend

    • Standard-WordPress-Installation (Demo: https://www.verba-alpina.gwi.uni-muenchen.de/)
    • auch hier wieder: Front- und Backend (Demo)
    • ergänzt um Eigenentwicklungen, zumeist in Form von sog. Plugins (werden auf Github unter offenen Lizenzen (CC BY-SA,  zur Nachnutzung zur Verfügung gestellt: https://github.com/VerbaAlpina/)
    • Mehrsprachig: die wichtigsten Sprachen des Alpenraums + Englisch (verursacht großen Aufwand)
    • Multifunktional:
      • Arbeitsinstrument für Mitarbeiter
      • Dokumentation
      • Publikation
      • Datensammlung
    • Punkt Dokumentation: Methodologie (Reflexion vielfältiger Aspekte, sprachwissenschaftlicher ebenso wie informatischer) (Demo)
    • Weitere Kern-Module des Frontend neben der Methodologie:
      • Interaktive Karte (Demo: malga, HERDE;
        • Integration von semasiologischer und onomasiologischer Perspektive;
        • qualitative und quantitative Kartierung: quantitative Kartierung bildet die Häufigkeit der in einer Region auf der aktuellen Karte dargestellten Symbole durch Intensität der Flächenfärbung ab (Beispiel: malga|rom|f|- in der Bedeutung ALM)
        • Kombination mit Daten der außersprachlichen Peripherie;
        • Einbindung von Normdaten: Wikidata-Q-IDs und Geonames-IDs: Belegfenster malga ⇒ HERDE im Ort Stenico)
        • Auf der Karte können auch individuelle Suchanfragen in SQL formuliert werden, die dann kartiert werden (Beispiel: liefer alle Einzelbelege des Morphtyps Butter, die mit einem "P" beginnen: where Type_Kind = 'L' AND Type = 'Butter' AND Instance like 'p%')
        • Technisch hochperformant (Nutzung des Standards WebGL, der den direkten Zugriff auf die Grafikkarte erlaubt; s. den Methodologie-Eintrag)
      • Lexicon Alpinum (Demo alt; Neuentwicklung! ⇒ Demo)
      • Transkriptionstool: Operationalisierung der strukturierten Erfassung analoger Datenquellen, v. a. von Sprachatlanten (Demo; Verwendung des Betacodes ⇒ normale Tastatur, geringe Fehleranfälligkeit, schnell zu erlernen, keine Kenntnisse in phonetischer Transkription erforderlich; Automatisierung vor allem wegen Zuordnungsproblematik nicht möglich)
      • Typisierungstool: Klassifizierung/Typisierung der digitalisierten Daten (Demo)
      • Crowdsourcing-Tool(s) ...

    Einsatz von Crowdsourcing

    • Motivation:
      1. Konsolidierung von Inkonsistenzen, die sich aus der inhomogenen Dokumentationslage auf Basis von Sprachatlanten und Wörterbüchern ergeben (Übersicht über unterschiedliche thematische Abdeckung verschiedener Atlanten) ⇒ regionale Begrenzung der Quellen und unterschiedlicher Inhalt: z. B. wird nicht jedes Konzept von jedem Sprachatlas berücksichtigt. ⇒ Beseitigung von Dokumentationslücken (Demo)
      2. Mithilfe bei Transkription (⇒ Zooniverse-Tool; ursprüngliche Absicht: Verwendung eines "Baukastens" ( Zooniverse Project Builder), der den Entwicklungsaufwand reduziert. Hoffnungen haben sich leider nicht bestätigt, Entwicklungsaufwand kaum geringer als bei Eigenentwicklung. Weiterer Nachteil: Nicht direkt ins VA-System integriert, sondern auf Server von Zooniverse. Bislang noch nicht beworben, daher noch nicht produktiv. Transkriptionsergebnisse müssen in csv-Datei exportiert werden, die dann in va-DB importiert wird. Entsprechende Prozedur wird derzeit entwickelt – (Demo) – Zooniverse ist ein "citizen science web portal ", das eine große Anzahl von Crowdsourcing-Projekten unterstützt und auf seinen Seiten hostet. Eines der sehr frühen Projekte: Klassifizierung von Glaxien, ähnliche Aufgabe wie bei VerbaAlpina: Transkription von Logbüchern von Arktisfahrern aus dem 19. und frühen 20. Jh. – Zooniverse ist an der Universität Oxford beheimatet und verfügt über eine sehr große Anzahl von *registrierten* freiwilligen "Crowdern" (über 1,5 Mio.); VerbaAlpina "not yet an official Zooniverse project" (aufwendiges Review-Verfahren)
    • Die Vitalität des Crowd-Sourcing-Tools 1) wird überwacht: CSGRAPH

    Nachhaltigkeit

    • Sämtlicher "Output" von VA muss dauerhaft zugänglich und nutzbar sein
    • Paradigma ist – in dieser Beziehung – das traditionelle Buch auf Papier
    • Im Detail sind damit u. a. die folgenden Postulate verbunden:
      • Die Daten müssen dauerhaft auffindbar sein (Buch: Bibliothekskataloge; wichtig: Es muss klar sein, an welche Institution ich mich wende. Bei einem Buch geht man selbstverständlich zur Bibliothek)
      • Die Daten müssen dauerhaft zugänglich sein (Buch: Bibliotheken)
      • Inhalte müssen präzise und stabil zitierbar sein (Buch: Seitenzahlen)
    • Durch die Möglichkeiten der elektronischen Vernetzung kommen, gegenüber dem Paradigma des Buches, die folgenden Postulate hinzu:
      • Projektdaten sollten mit Daten außerhalb des Projekts verknüpft werden können.
      • Zu diesem Zweck müssen die Daten des Projekts zu Entitäten zusammengefasst werden. Jede Instanz einer Entität muss eindeutig identifizierbar sein und über eine elektronische Adresse ansprechbar sein.
      • Die Kernentitäten von VA sind wiederum die oben bereits genannten:
        • Morphtypen
        • Konzepte
        • Orte
        • Basistypen
      • Jede Instanz dieser Entitäten erhält einen innerhalb des Projekts eindeutigen Identifikator: Morphtypen Präfix L, Konzepte Präfix C, Orte Präfix A, Basistypen Präfix B) – Beispiele im Lexikon Alpinum
      • Die Identifikatoren können auch als "Normdaten" bezeichnet werden – Unter Normdaten versteht man eindeutige, numerische oder alphanumerische Zeichenketten, die eine Instanz einer bestimmten Entität eindeutig identifizieren. Frühe Normdatensysteme sind z. B. im Kontext des Bibliothekswesens entstanden; ein Motiv dabei ist gewesen, Autoren mit gleichlautenden Namen eindeutig identifizieren zu können (⇒ häufige Personennamen wie im Deutschen "Schmid" oder "Meier"). Bekannte Normdatensysteme sind z. B. die Gemeinsame Normdatei (GND) der deutschen Nationalbibliothek (Suchportal; Demo: Krefeld [123778689], Alexander der Große [118501828]). Ein für VA relevantes Normdatensystem ist z. B. die Wikidata (Beispiel folgt gleich)
      • Die projektspezifischen Normdaten können im Mapping-Verfahren mit bestehenden projektexternen Normdatensystem verknüpft werden (z. B. Wikidata-QIDs: VA-Konzept-ID C612 [ALMHÜTTE] ⇒ Wikidata Q-ID Q2649726])
    • Sofern diese inhaltliche Verknüpfung nicht von Menschen, sondern von Maschinen geleistet werden soll, spricht man von Interoperabilität.
    • Die interaktive Karte stellt im Hinblick auf die Zitierfähigkeit eine besondere Herausforderunge dar: Jeder User kann individuelle Kartenbilder erzeugen, die möglicherweise wesentlich für eine spezifische Argumentation sind. VA hat daher ein System entwickelt, das die Erzeugung individueller URLs erlaubt, deren Aufruf exakt das Kartenbild generiert, das bei Erzeugung der URL auf dem Bildschirm zu sehen war (Demo).
    • Wesentliche Voraussetzung für die uneingeschränkte Nachnutzbarkeit von Projektdaten ist eine möglichst offene Lizenzpolitik. Seit einigen Jahren bietet hier die Initiative Creative Commons (CC; gemeinnützige Organisation, gegründet 2001) generische Lizenzmodelle. VA stellt all seine Inhalte, soweit möglich, unter der CC-Lizenz BY-SA zur Verfügung. Einzige Bedingung ist dabei nur die Nennung des ursprünglichen Urhebers (BY) und die Weitergabe der Daten unter eben dieser Bedingung (SA = share alike)
    • Diese Postulate im Hinblick auf Nachhaltigkeit sind seit einigen Jahren im Akronym FAIR verankert (bereits von Thomas Krefeld angesprochen): Daten müssen Findable – Accessible – Interoperable und Reusable sein.
    • Übertragung der VA-Daten an die UB der LMU, dabei Anreicherung um Metadaten (Prozeduren derzeit noch in der Entwicklung)
    • Zu diesem Zweck: API (Application Programming Interface; dt: Programmierschnittstelle) – Ermöglicht Zugriff auf die Kerndaten von VA, gegliedert nach Morphtypen – Konzepten – Ortschaften – Einzelbelegen (Demo)
    • Wozu Metadaten? – Ein simples Beispiel: VA spricht in seinem Datenbestand von "morpholexikalischem Typ". In einem anderen Projekt wird dasselbe Konzept etwa als "Lemma" bezeichnet. Die Inhalte beider Kategorien sind jedoch aufeinander zu beziehen. Damit Menschen – und mehr noch Maschinen – erkennen können, dass es sich um kongruente, mit einander zu verknüpfende Daten handelt, können die jeweiligen Datenbestände auf ein gemeinsames, nach Möglichkeit weithin bekanntes und anerkanntes Bezugssystem abgebildet werden. Meist verwendet das Metadatenschema ein alphanumerisches System, das bestimmte Entitäten eindeutig identifiziert.
    • VA bzw. die UB der LMU verwenden zwei verschiedene, weit verbreitete Metadatenschemata, wobei das eine, vom Konsortium Datacite, im Wesentlichen für die Erfassung von üblicherweise in Bibliothekskatalogen erfassten Daten wie Autoren, Schlagwörter und Entstehungszeit und -ort bezieht (s. dazu den Best Practice Guide)
    • Für die inhaltliche Tiefenerschließung findet das Metadatenschema CIDOC CRM (das Conceptual Reference Model [CRM] geht zurück auf eine Arbeitsgruppe des Comité International pour la Documentation [CIDOC], das seinerseits eine Gliederung des International Council of Museums (ICOM) darstellt; seit Anfang der 1990er Jahre) Anwendung (Dokumentation):