Das DFG-Langfristvorhaben „VerbaAlpina“ unter besonderer Berücksichtigung des Aspekts des Forschungsdatenmanagements

Vorbemerkung

Der folgende Themenvorschlag wurde am 28.9.18 über das „Conftool“ der DHd2019-Konferenz eingereicht. Dabei wurde der Text zusätzlich in einer Conftool-spezifischen Word- und in einer XML-Datei abgelegt (download als ZIP-Datei). Diese Dateien bildeten dann die Grundlage für die Begutachtung durch insgesamt vier Gutachter. Der Themenvorschlag wurde von zwei der Gutachter abgelehnt, einer empfahl, die Annahme als Posterpräsentation zu erwägen, der vierte Gutachter stimmte für die Annahme des Themenvorschlags. Im Endergebnis wurde der Themenvorschlag abgelehnt.

Die Einbindung von Stellungnahmen zu den Gutachten in den Entscheidungsprozess ist von der DHd2019 leider nicht vorgesehen. Im Folgenden wird unterhalb des Textes des Themenvorschlags in jeweils getrennten Kommentaren zunächst der Wortlaut der Gutachten präsentiert. Darunter findet sich schließlich die Stellungnahme von VerbaAlpina.


Stephan Lücke

Themenvorschlag für einen Vortrag auf der DHd-Konferenz 2019 in Mainz und Frankfurt/M.: Bericht über die Entwicklung einer digitalen Ressource

Das Projekt VerbaAlpina – Kurzvorstellung

In der prädigitalen Welt hatten sich im Umfeld der Lexikographie zwei grundsätzlich voneinander unterschiedene Publikationsgattungen etabliert. Während das Wörterbuch von den Bezeichnungen ausging und, in alphabetischer Reihung, die unterschiedlichen Bedeutungen der einzelnen Wörter dokumentierte, präsentierte der sog. Sprachatlas, ausgehend von den Bedeutungen, die unterschiedlichen Wörter, die für deren Bezeichnung verwendet wurden. Die Bezeichnung „Sprachatlas“ verweist dabei auf die diatopische Dimension der Lexikographie, die darin begründet ist, dass Wörter in unterschiedlichen Regionen unterschiedliche Bedeutungen haben können. Während die georeferenzierte Abbildung der Verhältnisse das wesentliche Charakteristikum eines Sprachatlasses ist, finden sich Informationen zur geographischen Verbreitung der Wortbedeutungen nur in manchen Wörterbüchern. Als ein prominentes Beispiel für letztere Variante kann das Wörterbuch der schweizer-deutschen Sprache, das sog. Idiotikon (https://www.idiotikon.ch/), genannt werden.

Das Projekt VerbaAlpina (https://www.verba-alpina.gwi.uni-muenchen.de/), das seit dem Jahr 2014 von der DFG als Langfristvorhaben gefördert wird (http://gepris.dfg.de/gepris/projekt/253900505) und sich seit 2017 in seiner zweiten Förderphase befindet, nutzt die Möglichkeiten der Digitalisierung, um die beiden traditionell einander ausschließenden Perspektiven, also den Blick vom Wort zu dessen Bedeutung und den von der Bedeutung zu den Wörtern, in einem System zu vereinigen und schafft auf diese Weise eine innovative lexikographische Publikationsform, die überdies durch den Einsatz von Datenbanktechnologie eine Reihe erweiterter Analysemöglichkeiten wie etwa statistische Auswertungen des Datenmaterials ermöglicht.

Rein inhaltlich konzentriert sich das Projekt auf den Alpenraum und die dort gesprochenen Nationalsprachen und deren Dialekte. Als Datenbasis dienen zunächst die für diesen Raum verfügbaren traditionellen Sprachatlanten und Wörterbücher mit georeferenzierten Belegen, deren Inhalt partiell erfasst und in eine relationale Datenbank eingetragen wurde bzw. wird. Da eine vollständige Erfassung des lexikalischen Materials mit den vorhandenen Mitteln nicht zu leisten ist, erfolgt eine selektive Dokumentation von Vokabular, das mit bestimmten Konzeptdomänen verbunden ist. In der ersten Phase des Projekts stand das lexikalische Material im Umfeld von Almwesen und Milchwirtschaft im Mittelpunkt, in der laufenden Phase geht es hauptsächlich um Flora, Fauna und traditionelle Küche. Die geplante dritte Phase wird sich mit der modernen Lebenswelt und dem Tourismus bzw. vielmehr dem damit verbundenen Vokabular befassen.

Das gleichsam „historische“ Material aus Sprachatlanten und Wörterbüchern wird über ein Crowd-Sourcing-Tool (https://www.verba-alpina.gwi.uni-muenchen.de/en?page_id=1741) um aktuelles Material ergänzt. Unter anderem durch dieses im Netz gesammelte Material erhält das Projekt auch eine diachrone Perspektive, die die Beobachtung von Sprachwandel z.B. vor dem Hintergrund wirtschaftlicher und/oder demographischer Veränderungen erlaubt. Um dies zu ermöglichen, sammelt VerbaAlpina auch die Sprachdaten ergänzende Daten, etwa zur Bevölkerungsentwicklung oder zur Infrastruktur. Sehr wichtig ist für VerbaAlpina auch die Kooperation mit Partnern überwiegend aus dem Bereich der Sprachwissenschaften, die über eigene Sprachkorpora verfügen. Spezielle Kooperationsvereinbarungen regeln den Austausch von Datenmaterial zum wechselseitigen Nutzen. In diesem Zusammenhang, aber auch grundsätzlich, fühlt sich VerbaAlpina dem Ideal des Open Access verpflichtet. Sämtliche Inhalte werden nach Möglichkeit unter der CC-Lizenz BY-SA zur Verfügung gestellt.

Aus sprachwissenschaftlicher Sicht entsteht durch die Wahl des Alpenraums als Untersuchungsgebiet insofern ein besonderer Mehrwert, als die Dokumentation von Wortschatz sich traditionell am Verlauf der Sprach- und/oder der Nationalgrenzen orientierte. Da der Alpenraum von einer ganzen Reihe von Sprach- und politischen Grenzen durchzogen ist, versammelt VerbaAlpina demnach Sprachmaterial, das bislang nur in voneinander getrennten Publikationen dokumentiert und konsultierbar gewesen ist. Auf diese Weise ergibt sich die Möglichkeit, grenzüberschreitende Zusammenhänge wie etwa die Verbreitung ein und derselben lexematischen Basis sowohl im germanischen wie auch im romanischen Sprachraum zu entdecken. Als Beispiel lassen sich etwa das im germanischen Sprachraum u.a. in Kärnten belegte Wort Kasel und der vor allem im oberitalienischen Alpenraum verbreitete morpholexikalische Typ Casel anführen. Beide morpholexikalischen Typen hängen unverkennbar und zwar insofern miteinander zusammen, als ihnen jeweils das lateinische Wort căsa als lexematische Basis innewohnt. Diese Erkenntnis wirft sofort die Frage nach der Ursache dieses Zusammenhangs auf, die in den unterschiedlichen Szenarien des Sprachkontakts zu suchen ist. Spätestens in diesem Moment erhält das Projekt VerbaAlpina auch eine historische Dimension, denn nahezu ausschließlich ist Sprachkontakt mit historischen Prozessen wie etwa Wanderungsbewegungen, Eroberungen oder auch Handelsbeziehungen verknüpft. Neben dieser historischen Dimension beinhaltet VerbaAlpina auch einen Konnex mit der Ethnographie, zumal die Arbeit mit den Wörtern und Bezeichnungen auch zur Auseinandersetzung mit der damit verbundenen Lebenswelt zwingt. Insofern präsentiert sich VerbaAlpina also auch als ein interdisziplinäres Forschungsvorhaben.

Die Herausforderung des „Forschungsdatenmanagements“ – Nachhaltigkeit, Auffindbarkeit, Zitierbarkeit

VerbaAlpina versteht sich als vollständig digitales Online-Projekt, das konsequent speziell die damit gegebenen Möglichkeiten der Vernetzung und Verknüpfung nutzt. Mit diesem Anspruch ist eine ganze Reihe von Herausforderungen verbunden, die teils über die Kernbelange des Projekts hinausreichen und grundsätzliche Probleme berühren, die für die digitalen Geisteswissenschaften ganz allgemein gelöst werden müssen. Als das orientierunggebende Paradigma betrachtet VerbaAlpina dabei zunächst das gedruckte Buch, das bei allen mit diesem Medium verbundenen Nachteilen zwei ganz wesentliche und auch künftig unverzichtbare Eigenschaften besitzt: Es ist text- bzw. allgemein inhaltsstabil und dadurch zitierfähig und es ist in materieller Hinsicht dauerhaft. Die wesentliche Herausforderung, der sich VerbaAlpina und im Grunde alle digital arbeitenden Projekte gegenübersehen, ist demnach die Verbindung der neuen, erweiterten Möglichkeiten der Digitalisierung mit eben jenen unverzichtbaren Eigenschaften des Buches.

Für das Konzept der Dauerhaftigkeit wird aktuell verbreitet die Vokabel „Nachhaltigkeit“ bzw. „Nachnutzbarkeit“ verwendet. Vor dem Hintergrund der Digitalisierung besitzt dieses Postulat wiederum zwei Seiten: eine technische und eine inhaltliche. Die rein technische Bewahrung stellt sich dabei als das geringere Problem dar, denn die Sicherung digitaler Daten kann zuverlässig von Rechenzentren oder vergleichbaren Institutionen übernommen und gewährleistet werden. Wesentlich anspruchsvoller ist die Sicherstellung der künftigen und im Idealfall zeitlich unbegrenzten Nutzbarkeit der erzeugten Inhalte, die sich bei vollständig digitalen Projekten nur zu einem Bruchteil als von Menschen lesbarer Text in natürlicher Sprache darstellen. Soweit uns bekannt, gibt es in dieser Hinsicht noch keine allgemeingültigen und etablierten Verfahren, vielmehr befinden wir uns derzeit in einer Übergangsphase, in der allenthalben nach tragfähigen Konzepten in diesem Zusammenhang gesucht wird. Sämtliche Bemühungen müssen schließlich in der Etablierung allgemein akzeptierter Standardverfahren münden.

Zur Sicherstellung der Zitierbarkeit sämtlicher Inhalte bedient sich VerbaAlpina des Konzepts regelmäßiger Versionierungen. Derzeit wird jeweils zur Jahresmitte und zum Jahresende eine Version erzeugt, deren Zustand ab diesem Moment unverändert bleibt. Auf der Homepage des Projekts kann zwischen den verschiedenen Versionen gewählt werden. Eine Vielzahl der Inhalte von VerbaAlpina kann über URLs direkt adressiert werden, wobei jede dieser URLs die jeweilige Versionsnummer als URL-Parameter in sich trägt.

Im Hinblick auf mögliche künftige Umzüge der Projekthomepage, mithin eine Änderung der Domain, wurde bislang bereits ein sog. Digital Object Identifier (DOI) registriert, der die grundsätzliche Erreichbarkeit des Projektportals auch in solchen Fällen weiterhin garantieren kann. Derzeit sind Bestrebungen im Gange, DOIs nicht nur für das Projektportal als Ganzes, sondern vielmehr auch für definierte Inhalte in sehr feiner Granularität registrieren zu lassen. So ist beabsichtigt, u.a. die im Projekt versammelten morpholexikalischen Typen sowie die von diesen bezeichneten Konzepte (= Begriffe) mit individuellen DOIs zu versehen, so dass eine gezielte Referenzierung auf diese Einzeldaten möglich wird.

Neben der Registrierung dieser DOIs sind Bestrebungen im Gang, aus den im Projekt verwalteten Daten etwa nach dem Vorbild der GND Normdaten zu generieren. Konkret soll u.a. jeder morpholexikalische Typ, definiert durch lexematische Basis, Sprachfamilienzugehörigkeit, Genus und Affigierung, sowie jedes außersprachliche Konzept zu einem Normdatum deklariert werden. Die Vergabe entsprechender Normdaten-IDs in Verbindung mit der Registrierung feingranularer DOIs ist unverzichtbar für die gezielte Verknüpfung von Daten über Projektgrenzen hinweg und ist ein wichtiges Element im Umfeld des aktuell wissenschaftspolitisch stark geförderten Forschungsdatenmanagements. Durch die strukturierte Erfassung der Metadaten im weithin etablierten DataCite-Format finden die Forschungsdaten einschließlich der Normdaten-IDs auch Eingang in die Bibliothekskataloge. Auf diese Weise wird ihre Auffindbarkeit über OPAC-Recherchen ermöglicht.

VerbaAlpina befasst sich derzeit sehr intensiv mit dieser Thematik und ist in zwei aktuell laufende einschlägige Forschungsvorhaben (GeRDI [https://www.gerdi-project.eu/] und „eHumanities – interdisziplinär“ [https://www.fdm-bayern.org/]) zum Thema Forschungsdatenmanagement eingebunden.

Von noch grundsätzlicherer Bedeutung ist die Frage nach der Etablierung institutioneller Zuständigkeiten und Workflows, die die Einhaltung und Weiterentwicklung der einschlägigen Konzepte zur Nachhaltigkeit, Zitierbarkeit und Verknüpfungsmöglichkeit garantieren. Auch zu dieser Thematik hat VerbaAlpina bereits Ideen entwickelt und niedergelegt (Krefeld/Lücke 2017). Unter anderem findet sich darin ein Plädoyer für die Beibehaltung bzw. Stärkung der Rolle der Bibliotheken auch in der Phase nach der digitalen Revolution: Sie waren seit jeher für die Bewahrung und Auffindbarkeit von Informationen zuständig und ihr langfristiger Fortbestand erscheint, anders als dies bei manchen temporär geförderten Repositoriumsprojekten der Fall ist, gesichert.

Der hier unterbreitete Themenvorschlag besteht zusammenfassend darin, das Projekt VerbaAlpina kurz vorzustellen, um anschließend den Fokus auf die skizzierten Aspekte des Forschungsdatenmanagements zu legen. Die Präsentation der damit verbundenen Vorstellungen von VerbaAlpina auf der DHd-Jahreskonferenz wäre umso wichtiger, als gerade in diesem Zusammenhang ein breiter Konsens unerlässlich ist, der nur durch die Diskussion in einer möglichst breiten Öffentlichkeit erzielt werden kann.

Literaturverzeichnis

Ein Gedanke zu „Das DFG-Langfristvorhaben „VerbaAlpina“ unter besonderer Berücksichtigung des Aspekts des Forschungsdatenmanagements

  1. SLuecke Beitragsautor

    +++ Stellungnahme von VerbaAlpina zur Ablehnung des eingereichten Themenvorschlags +++

    VerbaAlpina bedauert die Ablehung des eingereichten Themenvorschlags. Da eine Stellungnahme von Seiten der DHd2019 nicht vorgesehen ist, erfolgt diese an dieser Stelle.

    Mehrere der Gutachter haben u.a. die mangelnde Rezeption von für den Themenvorschlag einschlägigen Aktivitäten im Bereich der Digital Humanities beklagt. Diese spiegelt sich in der Tat u.a. in der idiosynkratisch wirkenden Bibliographie wider. Dazu die folgenden Anmerkungen: VerbaAlpina fühlt sich in erster Linie der fachwissenschaftlichen Perspektive und dem damit verbundenen Erkenntnisinteresse verpflichtet. Dem widerspricht nicht, dass das Projekt gleichzeitig mit aller Konsequenz digitale Konzepte und Methoden einsetzt. Die vom Projekt losgelöste akademische Betrachtung der Entwicklungen auf dem Gebiet der Digital Humanities andererseits kann und darf nicht zur Aufgabe von VerbaAlpina werden. Dies entspricht überdies der grundsätzlichen, auch von der IT-Gruppe Geisteswissenschaften (ITG) der LMU getragenen, Überzeugung, dass die DH stets sehr stark fachbezogen bleiben und sich nicht verselbständigen sollten. VerbaAlpina beobachtet diesen Sektor aus dem Augenwinkel mit dem Ziel, wichtige Entwicklungen nicht zu verpassen und Konzepte, Strategien und Strukturen ggf. daran auszurichten. Die Reaktion auf neue Entwicklungen erfolgt dann häufig durch die Implementierung von Schnittstellen, die den Datenbestand von VerbaAlpina in neue Datenformate überträgt.

    VerbaAlpina ist vor allem an konkreten konzeptionellen und technischen Lösungen interessiert, die die Interessen des Projekts bei minimalem Aufwand maximal befördern. Wir sind bemüht, sämtliche damit verbundenen Aspekte intensiv zu reflektieren und in transparenter Weise in der Rubrik „Methodologie“ zu dokumentieren. In unserer Wahrnehmung werden viele der einschlägigen Stichpunkte, die wir für relevant halten, anderwärts nicht oder nur in unzureichender Weise thematisiert. Als Beispiel sei hier das Konzept eines „Digital Object“ (Lücke, S.: s.v. “Digital Object”, in: VA-de 18/2, Methodologie, http://dx.doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D493%26db%3D182%26letter%3DD%23120) genannt, das offenkundig dem Konzept des entsprechenden „Identifiers“ (DOI) zugrunde liegt, jedoch anscheinend (!) noch keine tragfähige, praxistaugliche Definition erfahren hat. Insofern können wir nicht wirklich erkennen, inwiefern wir hinter den „State of Practice“ zurückfallen. Gleichzeitig mag dies auch das stark eigenbezogene Literaturverzeichnis erklären.

    Einer der Gutachter erwähnt das Stichwort „TEI“. VerbaAlpina ist sich der weiten Verbreitung dieser XML-Variante bewusst. Die VerbaAlpina-Projektdaten können grundsätzlich in dieses Format übertragen werden, und die Entwicklung einer entsprechenden Schnittstelle wird erwogen. Für die projektinterne Verwendung erscheint TEI jedoch ungeeignet, da der Umgang damit schwerfällig ist. Relationale Datenbanken sind demgegenüber wesentlich schneller und vielseitiger. Die Erzeugung von XML-Formaten aus einer relationalen Datenstruktur ist deutlich einfacher als der umgekehrte Weg (eine primär relationale Datenmodellierung ist bewährte Praxis auch in den informatischen Disziplinen). Die vom gleichen Gutachter mit Skepsis betrachtete Registrierung einer großen Anzahl von DOIs basierend auf einer sehr feinen Datengranulierung ist organisatorisch und technisch durchführbar. Das entsprechende Verfahren ist in Kooperation mit der UB der LMU (und im Rahmen des Forschungsprojekts „eHumanities – interdisziplinär“) bereits sehr weit entwickelt und wird demnächst einsatzbereit sein. Diese „kleinteiligen“ DOIs sind die wichtigste Voraussetzung für die technische Interoperabilität und daher unverzichtbar. Als, vermutlich behebbares, Hemmnis stehen derzeit lediglich noch relativ hohe Kosten für die Registrierung der DOIs im Raum. Dem Problem der Aktualität wird mit dem Konzept der Versionierung begegnet.

    Die FAIR-Prinzipien, die im Themenvorschlag ungeschickter Weise nicht erwähnt wurden, sind VerbaAlpina seit langem bekannt. Ein entsprechender Methodologie-Artikel (Lücke, S.: s.v. “FAIR-Prinzipien”, in: VA-de 18/2, Methodologie, http://dx.doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D493%26db%3D182%26letter%3DF%23128; s. auch die Bewerbung von VerbaAlpina um den Communicator-Preis der DFG) war bei Einreichung des Themenvorschlags leider noch nicht öffentlich zugänglich. Auch wenn das Schlagwort „FAIR“ im Themenvorschlag nicht explizit genannt wurde, so sind die damit akronymisch angesprochenen Themenbereiche im Text durchaus präsent.

    Die Beanstandung der fehlerhaften Zitierweise des Crowdsourcing-Tools geht vielleicht insofern ins Leere, als es sich bei diesem Tool um eine VerbaAlpina-eigene Entwicklung handelt. Möglicherweise liegt hier ein Missverständnis vor; wahrscheinlich geht das aus dem Text nicht deutlich genug hervor.

    Der Aspekt der nachhaltigen Bewahrung der VerbaAlpina-Webseite, für den sich einer der Gutachter interessiert, stellt nach Ansicht von VerbaAlpina ein wohl grundsätzlich unlösbares Problem dar. Der Betrieb eines Webportals wird stets ein Minimum an Pflege und Anpassung erfordern, die mit Personalaufwand verbunden sind. Für die kommenden Jahre, auch über das spätestens im Jahr 2025 eintretende Projektende hinaus, wird diese Aufgabe von der dauerhaft an der LMU installierten IT-Gruppe Geisteswissenschaften übernommen werden und erscheint insofern wenigstens mittelfristig gesichert. Testweise wurde bereits vor einigen Jahren eine ältere Version von VerbaAlpina in einem Docker-Image auf einem von der UB der LMU betriebenen Server eingerichtet. Jedoch kommen auch solche Kapselungs-Lösungen nicht vollständig ohne Wartungsaufwand aus. Dies gilt insbesondere dann, wenn eine Webseite externe Dienste wie etwa eine Google-Karte integriert, wie das bei den bisherigen Versionen von VerbaAlpina der Fall ist (aus diesem Grund erfolgt derzeit die Umstellung auf OpenStreetMap mit der Perspektive eines eigenen Tile-Servers; vollständige Wartungsfreiheit wird aber auch dadurch nicht erreicht). Letztlich kann eine Lösung nur darin liegen, den vom Projekt entwickelten Code möglichst gut zu dokumentieren und in nachhaltig verfügbaren Repositorien (derzeit GitHub; demnächst auch Open Data LMU) abzulegen, so dass Intention und Konzeption von späteren Generationen verstanden und mit dann verfügbarer Technologie nachgebaut werden können.

    Antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.