Das DFG-Langfristvorhaben „VerbaAlpina“ unter besonderer Berücksichtigung des Aspekts des Forschungsdatenmanagements (Zitieren)


(1960 Wörter)

Vorbemerkung

Der folgende Themenvorschlag wurde am 28.9.18 über das „Conftool“ der DHd2019-Konferenz eingereicht. Dabei wurde der Text zusätzlich in einer Conftool-spezifischen Word- und in einer XML-Datei abgelegt (download als ZIP-Datei). Diese Dateien bildeten dann die Grundlage für die Begutachtung durch insgesamt vier Gutachter. Der Themenvorschlag wurde von zwei der Gutachter abgelehnt, einer empfahl, die Annahme als Posterpräsentation zu erwägen, der vierte Gutachter stimmte für die Annahme des Themenvorschlags. Im Endergebnis wurde der Themenvorschlag abgelehnt.

Die Einbindung von Stellungnahmen zu den Gutachten in den Entscheidungsprozess ist von der DHd2019 nicht vorgesehen. Da wir es wichtig finden, uns der geäußerten Kritik zu stellen, veröffentlichen wir an dieser Stelle, unterhalb des im Folgenden präsentierten Themenvorschlags, eine Stellungnahme zu den von den Gutachtern der DHd2019 vorgebrachten Kritikpunkten. Ursprünglich hatten wir oberhalb der Stellungnahme die Wortlaute der Gutachten präsentiert. Dies erschien uns im Sinne der Nachvollziehbarkeit unserer Stellungnahme unverzichtbar und gleichzeitig aufgrund der Anonymität der Gutachter vertretbar. Das Programmkommitee der DHd2019 sah indes darin eine Störung des Vertrauensverhältnisses zwischen ihm, dem Programmkommitee, und den Gutachtern und hat uns daher eindringlich darum gebeten, die Gutachten nicht öffentlich zugänglich zu machen. Wir haben diesem Wunsch im Geist der Kollegialität entsprochen und die Gutachten wieder entfernt — obwohl wir eigentlich der Ansicht sind, dass angesichts der Anonymität der Gutachter keine Persönlichkeitsrechte verletzt würden.

VerbaAlpina ist der Ansicht, dass der wissenschaftliche Diskurs jederzeit in der Öffentlichkeit stattfinden kann und nach Möglichkeit auch sollte. Gerade wenn unsere Arbeit Kritik erfährt, *müssen* wir, so unsere Auffassung, uns dieser in transparenter und nachvollziehbarer Weise stellen. Dies sind wir allein schon unserem Geldgeber schuldig, mehr aber noch der wissenschaftlichen Öffentlichkeit. In prädigitaler Zeit war es schwer, ein wünschenswertes Maß an Transparenz zu erzielen. Mit Einzug der neuen Medien hat sich die Lage jedoch auch in dieser Hinsicht fundamental geändert. Nunmehr ist es technisch vollkommen problemlos, den wissenschaftlichen Diskurs in allen Details offenzulegen. Wir sind davon überzeugt, dass dies nur positive Effekte auf die Produktivität der Akteure und die Qualität ihrer wissenschaftlichen Arbeit haben wird, und hoffen, dass dieser Paradigmenwechsel sich wenigstens mittelfristig flächendeckend durchsetzen wird.


Stephan Lücke

Themenvorschlag für einen Vortrag auf der DHd-Konferenz 2019 in Mainz und Frankfurt/M.: Bericht über die Entwicklung einer digitalen Ressource

Das Projekt VerbaAlpina – Kurzvorstellung

In der prädigitalen Welt hatten sich im Umfeld der Lexikographie zwei grundsätzlich voneinander unterschiedene Publikationsgattungen etabliert. Während das Wörterbuch von den Bezeichnungen ausging und, in alphabetischer Reihung, die unterschiedlichen Bedeutungen der einzelnen Wörter dokumentierte, präsentierte der sog. Sprachatlas, ausgehend von den Bedeutungen, die unterschiedlichen Wörter, die für deren Bezeichnung verwendet wurden. Die Bezeichnung „Sprachatlas“ verweist dabei auf die diatopische Dimension der Lexikographie, die darin begründet ist, dass Wörter in unterschiedlichen Regionen unterschiedliche Bedeutungen haben können. Während die georeferenzierte Abbildung der Verhältnisse das wesentliche Charakteristikum eines Sprachatlasses ist, finden sich Informationen zur geographischen Verbreitung der Wortbedeutungen nur in manchen Wörterbüchern. Als ein prominentes Beispiel für letztere Variante kann das Wörterbuch der schweizer-deutschen Sprache, das sog. Idiotikon (https://www.idiotikon.ch/), genannt werden.

Das Projekt VerbaAlpina (https://www.verba-alpina.gwi.uni-muenchen.de/), das seit dem Jahr 2014 von der DFG als Langfristvorhaben gefördert wird (http://gepris.dfg.de/gepris/projekt/253900505) und sich seit 2017 in seiner zweiten Förderphase befindet, nutzt die Möglichkeiten der Digitalisierung, um die beiden traditionell einander ausschließenden Perspektiven, also den Blick vom Wort zu dessen Bedeutung und den von der Bedeutung zu den Wörtern, in einem System zu vereinigen und schafft auf diese Weise eine innovative lexikographische Publikationsform, die überdies durch den Einsatz von Datenbanktechnologie eine Reihe erweiterter Analysemöglichkeiten wie etwa statistische Auswertungen des Datenmaterials ermöglicht.

Rein inhaltlich konzentriert sich das Projekt auf den Alpenraum und die dort gesprochenen Nationalsprachen und deren Dialekte. Als Datenbasis dienen zunächst die für diesen Raum verfügbaren traditionellen Sprachatlanten und Wörterbücher mit georeferenzierten Belegen, deren Inhalt partiell erfasst und in eine relationale Datenbank eingetragen wurde bzw. wird. Da eine vollständige Erfassung des lexikalischen Materials mit den vorhandenen Mitteln nicht zu leisten ist, erfolgt eine selektive Dokumentation von Vokabular, das mit bestimmten Konzeptdomänen verbunden ist. In der ersten Phase des Projekts stand das lexikalische Material im Umfeld von Almwesen und Milchwirtschaft im Mittelpunkt, in der laufenden Phase geht es hauptsächlich um Flora, Fauna und traditionelle Küche. Die geplante dritte Phase wird sich mit der modernen Lebenswelt und dem Tourismus bzw. vielmehr dem damit verbundenen Vokabular befassen.

Das gleichsam „historische“ Material aus Sprachatlanten und Wörterbüchern wird über ein Crowd-Sourcing-Tool (https://www.verba-alpina.gwi.uni-muenchen.de/en?page_id=1741) um aktuelles Material ergänzt. Unter anderem durch dieses im Netz gesammelte Material erhält das Projekt auch eine diachrone Perspektive, die die Beobachtung von Sprachwandel z.B. vor dem Hintergrund wirtschaftlicher und/oder demographischer Veränderungen erlaubt. Um dies zu ermöglichen, sammelt VerbaAlpina auch die Sprachdaten ergänzende Daten, etwa zur Bevölkerungsentwicklung oder zur Infrastruktur. Sehr wichtig ist für VerbaAlpina auch die Kooperation mit Partnern überwiegend aus dem Bereich der Sprachwissenschaften, die über eigene Sprachkorpora verfügen. Spezielle Kooperationsvereinbarungen regeln den Austausch von Datenmaterial zum wechselseitigen Nutzen. In diesem Zusammenhang, aber auch grundsätzlich, fühlt sich VerbaAlpina dem Ideal des Open Access verpflichtet. Sämtliche Inhalte werden nach Möglichkeit unter der CC-Lizenz BY-SA zur Verfügung gestellt.

Aus sprachwissenschaftlicher Sicht entsteht durch die Wahl des Alpenraums als Untersuchungsgebiet insofern ein besonderer Mehrwert, als die Dokumentation von Wortschatz sich traditionell am Verlauf der Sprach- und/oder der Nationalgrenzen orientierte. Da der Alpenraum von einer ganzen Reihe von Sprach- und politischen Grenzen durchzogen ist, versammelt VerbaAlpina demnach Sprachmaterial, das bislang nur in voneinander getrennten Publikationen dokumentiert und konsultierbar gewesen ist. Auf diese Weise ergibt sich die Möglichkeit, grenzüberschreitende Zusammenhänge wie etwa die Verbreitung ein und derselben lexematischen Basis sowohl im germanischen wie auch im romanischen Sprachraum zu entdecken. Als Beispiel lassen sich etwa das im germanischen Sprachraum u.a. in Kärnten belegte Wort Kasel und der vor allem im oberitalienischen Alpenraum verbreitete morpholexikalische Typ Casel anführen. Beide morpholexikalischen Typen hängen unverkennbar und zwar insofern miteinander zusammen, als ihnen jeweils das lateinische Wort căsa als lexematische Basis innewohnt. Diese Erkenntnis wirft sofort die Frage nach der Ursache dieses Zusammenhangs auf, die in den unterschiedlichen Szenarien des Sprachkontakts zu suchen ist. Spätestens in diesem Moment erhält das Projekt VerbaAlpina auch eine historische Dimension, denn nahezu ausschließlich ist Sprachkontakt mit historischen Prozessen wie etwa Wanderungsbewegungen, Eroberungen oder auch Handelsbeziehungen verknüpft. Neben dieser historischen Dimension beinhaltet VerbaAlpina auch einen Konnex mit der Ethnographie, zumal die Arbeit mit den Wörtern und Bezeichnungen auch zur Auseinandersetzung mit der damit verbundenen Lebenswelt zwingt. Insofern präsentiert sich VerbaAlpina also auch als ein interdisziplinäres Forschungsvorhaben.

Die Herausforderung des „Forschungsdatenmanagements“ – Nachhaltigkeit, Auffindbarkeit, Zitierbarkeit

VerbaAlpina versteht sich als vollständig digitales Online-Projekt, das konsequent speziell die damit gegebenen Möglichkeiten der Vernetzung und Verknüpfung nutzt. Mit diesem Anspruch ist eine ganze Reihe von Herausforderungen verbunden, die teils über die Kernbelange des Projekts hinausreichen und grundsätzliche Probleme berühren, die für die digitalen Geisteswissenschaften ganz allgemein gelöst werden müssen. Als das orientierunggebende Paradigma betrachtet VerbaAlpina dabei zunächst das gedruckte Buch, das bei allen mit diesem Medium verbundenen Nachteilen zwei ganz wesentliche und auch künftig unverzichtbare Eigenschaften besitzt: Es ist text- bzw. allgemein inhaltsstabil und dadurch zitierfähig und es ist in materieller Hinsicht dauerhaft. Die wesentliche Herausforderung, der sich VerbaAlpina und im Grunde alle digital arbeitenden Projekte gegenübersehen, ist demnach die Verbindung der neuen, erweiterten Möglichkeiten der Digitalisierung mit eben jenen unverzichtbaren Eigenschaften des Buches.

Für das Konzept der Dauerhaftigkeit wird aktuell verbreitet die Vokabel „Nachhaltigkeit“ bzw. „Nachnutzbarkeit“ verwendet. Vor dem Hintergrund der Digitalisierung besitzt dieses Postulat wiederum zwei Seiten: eine technische und eine inhaltliche. Die rein technische Bewahrung stellt sich dabei als das geringere Problem dar, denn die Sicherung digitaler Daten kann zuverlässig von Rechenzentren oder vergleichbaren Institutionen übernommen und gewährleistet werden. Wesentlich anspruchsvoller ist die Sicherstellung der künftigen und im Idealfall zeitlich unbegrenzten Nutzbarkeit der erzeugten Inhalte, die sich bei vollständig digitalen Projekten nur zu einem Bruchteil als von Menschen lesbarer Text in natürlicher Sprache darstellen. Soweit uns bekannt, gibt es in dieser Hinsicht noch keine allgemeingültigen und etablierten Verfahren, vielmehr befinden wir uns derzeit in einer Übergangsphase, in der allenthalben nach tragfähigen Konzepten in diesem Zusammenhang gesucht wird. Sämtliche Bemühungen müssen schließlich in der Etablierung allgemein akzeptierter Standardverfahren münden.

Zur Sicherstellung der Zitierbarkeit sämtlicher Inhalte bedient sich VerbaAlpina des Konzepts regelmäßiger Versionierungen. Derzeit wird jeweils zur Jahresmitte und zum Jahresende eine Version erzeugt, deren Zustand ab diesem Moment unverändert bleibt. Auf der Homepage des Projekts kann zwischen den verschiedenen Versionen gewählt werden. Eine Vielzahl der Inhalte von VerbaAlpina kann über URLs direkt adressiert werden, wobei jede dieser URLs die jeweilige Versionsnummer als URL-Parameter in sich trägt.

Im Hinblick auf mögliche künftige Umzüge der Projekthomepage, mithin eine Änderung der Domain, wurde bislang bereits ein sog. Digital Object Identifier (DOI) registriert, der die grundsätzliche Erreichbarkeit des Projektportals auch in solchen Fällen weiterhin garantieren kann. Derzeit sind Bestrebungen im Gange, DOIs nicht nur für das Projektportal als Ganzes, sondern vielmehr auch für definierte Inhalte in sehr feiner Granularität registrieren zu lassen. So ist beabsichtigt, u.a. die im Projekt versammelten morpholexikalischen Typen sowie die von diesen bezeichneten Konzepte (= Begriffe) mit individuellen DOIs zu versehen, so dass eine gezielte Referenzierung auf diese Einzeldaten möglich wird.

Neben der Registrierung dieser DOIs sind Bestrebungen im Gang, aus den im Projekt verwalteten Daten etwa nach dem Vorbild der GND Normdaten zu generieren. Konkret soll u.a. jeder morpholexikalische Typ, definiert durch lexematische Basis, Sprachfamilienzugehörigkeit, Genus und Affigierung, sowie jedes außersprachliche Konzept zu einem Normdatum deklariert werden. Die Vergabe entsprechender Normdaten-IDs in Verbindung mit der Registrierung feingranularer DOIs ist unverzichtbar für die gezielte Verknüpfung von Daten über Projektgrenzen hinweg und ist ein wichtiges Element im Umfeld des aktuell wissenschaftspolitisch stark geförderten Forschungsdatenmanagements. Durch die strukturierte Erfassung der Metadaten im weithin etablierten DataCite-Format finden die Forschungsdaten einschließlich der Normdaten-IDs auch Eingang in die Bibliothekskataloge. Auf diese Weise wird ihre Auffindbarkeit über OPAC-Recherchen ermöglicht.

VerbaAlpina befasst sich derzeit sehr intensiv mit dieser Thematik und ist in zwei aktuell laufende einschlägige Forschungsvorhaben (GeRDI [https://www.gerdi-project.eu/] und „eHumanities – interdisziplinär“ [https://www.fdm-bayern.org/]) zum Thema Forschungsdatenmanagement eingebunden.

Von noch grundsätzlicherer Bedeutung ist die Frage nach der Etablierung institutioneller Zuständigkeiten und Workflows, die die Einhaltung und Weiterentwicklung der einschlägigen Konzepte zur Nachhaltigkeit, Zitierbarkeit und Verknüpfungsmöglichkeit garantieren. Auch zu dieser Thematik hat VerbaAlpina bereits Ideen entwickelt und niedergelegt (Krefeld/Lücke 2017). Unter anderem findet sich darin ein Plädoyer für die Beibehaltung bzw. Stärkung der Rolle der Bibliotheken auch in der Phase nach der digitalen Revolution: Sie waren seit jeher für die Bewahrung und Auffindbarkeit von Informationen zuständig und ihr langfristiger Fortbestand erscheint, anders als dies bei manchen temporär geförderten Repositoriumsprojekten der Fall ist, gesichert.

Der hier unterbreitete Themenvorschlag besteht zusammenfassend darin, das Projekt VerbaAlpina kurz vorzustellen, um anschließend den Fokus auf die skizzierten Aspekte des Forschungsdatenmanagements zu legen. Die Präsentation der damit verbundenen Vorstellungen von VerbaAlpina auf der DHd-Jahreskonferenz wäre umso wichtiger, als gerade in diesem Zusammenhang ein breiter Konsens unerlässlich ist, der nur durch die Diskussion in einer möglichst breiten Öffentlichkeit erzielt werden kann.

Literaturverzeichnis