Kommunikative FAIRness in der Sprachwissenschaft (Bewerbung um den Communicator-Preis der DFG)

Thomas Krefeld (LMU) | Stephan Lücke (LMU)

Hinweis: Diese Bewerbung ist eine eher kurze, aber konsistente und ausformulierte Präsentation, in die etliche Links auf Texte und andere Ressourcen des DFG-Langzeitvorhabens VerbaAlpina (VA) eingebettet sind: Das Projekt soll im (ausgewählten) Originalton für sich selbst sprechen. Dieser Modus erschien uns zwingend, da sich genuine Web-Unternehmungen sowohl in ihrer Konzeption wie Realisierung permanent mit theoretischen und praktischen Fragen der Kommunikation auseinandersetzen.

1. Alpinistische Vorbemerkung

Einer berühmten Anekdote zufolge hat einer der britischen Pioniere des Alpinismus, Albert Frederick Mummery (🔗), beim Versuch die Dent du Géant im Mont Blanc-Massiv zu ersteigen, an einer nicht passierbaren Granitplatte eine Flasche mit folgender Botschaft hinterlegt:  

Impossible by fair means.

Wer heute an der Überführung geisteswissenschaftlicher Forschung in die digital humanities interessiert ist und sich, zum Beispiel, mit den Sprachen des Alpenraum befasst, sollte sich an das bon mot  erinnern, denn unter umgekehrten Vorzeichen wird daraus die bestmögliche Devise:

Possible only by FAIR means!

Seit kurzem werden ja mit der Sigle FAIR, die von einer wichtigen Initiative lanciert wurde (🔗),  vier grundlegende ethische Prinzipien für die Wissenschaftskommunikation unter den Bedingungen der Neuen Medien identifiziert (🔗). Demzufolge müssen Forschungsdaten

  • F_indable (‘auffindbar’),
  • A_ccessible (‘zugänglich’),
  • I_nteroperable (‘kompatibel’),
  • R_eusable (‘nachnutzbar’)

sein.

2. Wissenschaftskommunikation im Internet

Die FAIR-Prinzipien erfassen sehr gut, dass ‘Kommunikation’ jenseits (inzwischen eigentlich: diesseits) der Gutenberg-Galaxis immer in ganz direkter Weise auch ‘Kooperation’ sein kann (und sein sollte). Dieser radikale Wandel des Kommunikationsbegriffs ergibt sich aus der ebenfalls sehr grundlegend geänderten Rolle der Medien. Während die Ergebnisse  – und nur diese – als Abschluss der Forschungsarbeit früher ausschließlich durch den Druck medial und gewissermaßen materiell kommuniziert wurden, ist in den Neuen Medien die gesamte Forschungsarbeit inhärent medial konditioniert. Die sich damit ergebenden Rahmenbedingungen und Optionen einer ortsunabhängigen breiten Kooperation konkretisieren sich jedoch nicht automatisch, sondern erfordern die Beachtung einiger elementarer Regeln, die sich eben aus den FAIR-Prinzipien ableiten lassen (🔗). Weiterhin muss festgehalten werden, dass die FAIR-Prinizipien sowohl für die Maschine-Maschine-Kommunikation (machine readable) als auch für die Mensch-Maschine-Mensch-Kommunikation (human readable) gelten; genauer gesagt werden sehr unterschiedliche menschliche Nutzer adressiert, die auf einem Kontinuum von hochspezialisierten Experten und völligen Laien abgebildet werden können.

3. FAIRness gegenüber Laien in einer web-basierten Forschungsumgebung

Das Projekt VerbaAlpina (VA) versucht die Kommunikation im oben skizzierten Sinne konsequent nach den FAIR-Prinzipien zu gestalten; genauer gesagt sind fünf komplementär angelegte und eng miteinander verflochtene Funktionsbereiche (🔗) zu unterscheiden:

  • Dokumentation;
  • Publikation;
  • Kooperation;
  • Datenerhebung durch crowdsourcing;
  • Forschungslabor.

3.1. FAIRness der Publikation

Das ganze Internet ist nichts Anderes als eine gewaltige Publikationsmaschine, wobei allerdings durchaus anders und teils auch Anderes als unter den medialen Bedingungen des Drucks publiziert wird. Es werden

  • semantischer Inhalt (Dialektformen, meist wissenschaftliche Texte),
  • Metadaten,
  • Software und Code (🔗)

veröffentlicht. VA produziert stabile Daten und Textdateien, da die gesamte Plattform (Benutzeroberfläche und Datenbanken) alle sechs Monate ‘eingefroren’, oder: versioniert wird; zusätzlich besteht jeweils eine aktuelle Arbeitsversion (Version xxx), die noch Änderungen unterliegt und daher nicht zitiert werden sollte (🔗). Die jeweils jüngste Version ersetzt jedoch nicht die vorige, sondern ergänzt sie, denn alle früheren Versionen bleiben erhalten, so dass sämtliche Zitate und Verlinkungen innerhalb des Projekts sowie von außen auf das Projekt stets zugänglich sind.

Es ist weiterhin sichergestellt, dass die Versionen gut auffindbar sind, denn ihnen wird von der UB der LMU ein DOI zugewiesen (http://dx.doi.org/10.5282/verba-alpina); gleichzeitig findet VA damit Eingang in die Biblibliothekskataloge (🔗).

Auf dieselbe Weise lassen sich auch alle thematischen Textbeiträge identifizieren, die auf der Projektseite unter den Reitern Lexicon alpinum, Methodologie und Beiträge  publiziert werden; sie erhalten ebenfalls einen DOI und sind daher direkt zitierfähig (vgl. z.B.: Krefeld, T. / Lücke, S.: s.v. “butyru(m)”, in: VA-de 18/2, Lexicon alpinum, http://dx.doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D2374%26db%3D182%23B128).

Technisch gesehen liegt dem Verfahren ein Export aller VA-Dateien in ein Repositorium der UB zu Grunde (open data lmu), in dem auch Metadaten im Format Datacite zugewiesen werden. Dieser Export gewährleistet die Zugänglichkeit und Nachnutzbarkeit der Daten nach dem Auslaufen der Projektförderung.

Eine vergleichbare Funktion leistet der URN (http://nbn-resolving.de/urn:nbn:de:bvb:19-verba-alpina-8), der bei der Deutschen Nationalbibliothek in Frankfurt registriert wird. Schließlich ist auch der gesamte Quellcode von VA mit allen programmierten Tools unter github auffindbar und zugänglich.

Im Hinblick auf die Auffindbarkeit und Zugänglichkeit sind noch zwei grundsätzliche Bemerkungen angebracht:

  1. Da bislang in der Wissenschaftsgemeinde weder ein Standard-Metadatenschema verbindlich festgelegt noch die Frage geklärt ist, welche Institutionen über deren Einhaltung und die dauerhafte Bewahrung von Daten und Metadaten wachen sollen, hat sich VA zum einen für ein flexibles Schnittstellenkonzept entschieden, das die Nutzung im Grunde beliebiger Metadatenschemata erlaubt. Außerdem beteiligt sich VA an zwei aktuell laufenden Forschungsprojekten, die sich mit dieser Problematik auseinandersetzen: der Initiative (GeRDI) des LRZ und dem von der Bayerischen Staatsregierung geförderten Projekts e-humanities – interdisziplinär. Im Projekt GeRDI sollen Daten ganz unterschiedlicher Disziplinen über Metadaten verknüpft werden, indem gemeinsame Attribute festgelegt werden (was z.B. im Fall von Geo- und Chronoreferenzierungen sehr einfach und häufig auch sinnvoll ist).
  2. Abgesehen von den Metadaten, die auf die spezifischen Projektdaten referenzieren, ist es im Sinn von Auffindbarkeit und technischer Interoperabilität unbedingt ratsam, Identifikatoren und Normdaten zu verwenden, die außerhalb des Projekts etabliert sind. VA verwendet daher seit kurzem die Identifikatoren der sogenannten  Wikidata-Datenobjekte. Sie liefern Referenzen für außersprachliche Realitäten und Konzepte und damit einen gemeinsamen Bezugsrahmen für viele unterschiedliche Sprachen; so gibt es derzeit (14.12.2018) Wikipedia-Artikel in 133 Sprachen über das Milchprodukt Butter. Die sehr unterschiedlichen Artikel werden verknüpft, indem sie alle auf den eindeutigen Identifikator des entsprechenden Wikidata-Datenobjekts referenzieren (Q34172). Eine Suchmaschine, die danach sucht, ist also in der Lage, alle zugehörigen 133 Bezeichnungen zu finden – und so demnächst auch die in VA dokumentierten, zahlreichen Dialektformen (1926 Belege). Ein ähnliches System für Bezeichnungstypen, d.h. für Wörter (L-ID), ist im Aufbau (und sollte unbedingt auch auf morpho-syntaktische Kategorien ausgeweitet werden).

3.2. FAIRness der Dokumentation

VA dokumentiert Dialektbelege der drei großen europäischen Sprachfamilien, die sich in ethnolinguistischer Hinsicht  als spezifisch alpin erweisen.

Das Material wurde in einen systematisch strukturierten Datenbestand überführt und nach sprachlichen (‘morpho-lexikalische Typen’, ‘Basistypen’) und außersprachlichen (‘Konzepte’) Kritierien annotiert; es gibt daher einen maschinenlesbaren und einen menschenlesbaren Zugang, der in sehr anschaulicher Weise über eine interaktive Karte erfolgt; die dafür momentan noch genutzte Google Maps-Karte wird in Kürze durch eine bereits weitestgehend entwickelte Karte mit verbesserter Funktionalität auf der Grundlage von Open Street Maps ersetzt (🔗 ).

Die genannten Kategorien der Datenstrukturierung  fungieren an der Kartenoberfläche als Filter. Bereits auf dieser nutzerfreundlichen, insbesondere laientauglichen Oberfläche wurde eine ebenso einfache wie elementare Funktion der interoperability implementiert, denn es ist möglich, alle Karten, die man sich anzeigen lässt, in exakt der angezeigten Form (mit der entsprechenden Zoomstufe, jeweils geöffneten Fenstern usw.) mit anderen zu teilen oder sie in Publikationen usw. einzubauen, denn durch Klicken auf einen ’share button‘ wird für die jeweils aktuell angezeigte Karte eine versendbare URL erzeugt; so führt der folgende Link zu einer Karte aller in VA vorhandenen dialektalen Bezeichnungen (derzeit 1748 Belege) von BUTTER.

Das vorhandene Sprachmaterial stammt aus zwei Quellen: Der größte Teil wurde aus gedruckten oder für den Druck vorgesehenen Arbeiten gewonnen, so finden sich auch Formen, die uns im Rahmen von Partnerschaftsabkommen aus noch nicht abgeschlossenen Projekten zur Verfügung gestellt wurden (vgl. zum Beispiel das Punktnetz des Sprachatlas von Oberösterreich); der andere Teil wurde durch  das Projekt selbst im Crowdsourcing-Verfahren (s.u. 3.4.) erhoben. Umfangreiche, in teils schwer zugänglichen Publikationen ‘schlafende’ Dialektausdrücke werden also durch die Retrodigitalisierung auffindbar, zugänglich und in allgemein kompatibler Weise nachnutzbar gemacht; hier ein Beispiel aus dem Sprach- und Sachatlas Italiens und der SüdschweizAIS (1928-1940). Alle verfügbaren Formen werden in Kürze auch über eine DOI ansprechbar sein. 

3.3. FAIRness der Kooperation

VA wird von zahlreichen Partner-Projekten  unterstützt; das große Potential dieser Kooperation ist selbstverständlich und bedarf eigentlich keiner Erwähnung. Dennoch soll die konstruktive Perspektive der mehrfachen und komplementären Nachnutzung kompatibler Partnerprojekte an einem Beispiel illustriert werden: Im Rahmen des  Archivio lessicale dei dialetti trentini (ALTR) wurden fünf gedruckte Dialektwörterbücher  unterschiedlicher Talschaften (aus der Zeit zwischen 1955 und 1984) in einer Datenbank zusammengeführt. Dank einer Projektpartnerschaft  konnte VA die relevanten Ausdrücke konvertieren und importieren, so dass sie nun im Kontext aller Alpendialekte kartographisch dargestellt werden können; vgl. die folgende Bezeichnung eines Geräts zum Buttern: smalzaia).

Auch die Kompatibilität der Projekttechnik wurde bereits in der Übernahme durch andere Projekte unter Beweis gestellt; so in Gestalt der Überführung eines sizilianischen Regional- und Spezialwörterbuchs (Atlante linguistico della Sicilia online ) und – kürzlich – für einen geplanten Atlas des Pikardischen in Nordfrankreich und Belgien (Verba Picardia).

3.4. FAIRness im Crowdsourcing

Besonders prominent ist die Laienorientierung in der Nutzung von Crowdsourcing-Verfahren, die von VA in doppelter Weise genutzt werden; sie setzen eine intuitiv leichte Auffindbarkeit und Zugänglichkeit  zentraler Datenbereiche voraus. Zunächst wurde ein ästhetisch ansprechendes und einfach zu bedienendes Tool zur Datenerhebung programmiert (Mitmachen!); dafür wurde auch ein Tutorial auf Youtube gepostet. Ferner wurde soeben ein Zooniverse-Auftritt eingerichtet, um die für Retrodigitalisierung erforderliche Transkriptionsarbeit wenigstens teilweise an die Crowd weiterzugeben (🔗). Auch dafür ist Kompatibilität der VA-Datenbasis die Voraussetzung.

Das Erhebungstool wurde durch populärwissenschaftliche Vorträge in der Erwachsenenfortbildung einschlägiger Berufsgruppen (am 20.4.2018, 26.2.2018, 7.10.2017) beworben und fand daneben auch ein schönes massenmediales Echo. Die Auswertung ist interessant, denn es zeigt sich, dass eigentlich nur Projektberichte im Internet relevant sind, da dort über einen Link ein direkter, sozusagen intramedialer Zugang angeboten werden kann: Das mit Abstand stärkste Echo fand deshalb ein Post auf der Internetseite des Bayerischen Rundfunks (am 27.4.2018); insgesamt wurden durch die 925 ‘Crowder’ bislang  11064 Dialektformen (Stand: 16.12.2018) beigesteuert  (🔗).

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.