Im Jahr 2016 veröffentlichte eine große Anzahl von Wissenschaftlern aus einer ganzen Reihe von Ländern im Wissenschaftsmagazin Nature einen Artikel, in dem es darum ging, Richtlinien für den Umgang mit Forschungsdaten zu formulieren (Wilkinson, M. D.
et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: 10.1038/sdata.2016.18 (2016).
🔗). Letztlich gehen die in dieser Publikation vorgetragenen Ideen auf einen Workshop zurück, der im Januar 2014 am Lorentz Center an der Universität Leiden in den Niederlanden stattgefunden hatte. Der Titel des Workshops hatte gelautet:
Jointly designing a data FAIRPORT
Zwischenzeitlich haben sich diese Ideen, die im Akronym FAIR fokussiert sind, als ein Orientierungspunkt in der aktuellen Debatte über den richtigen Umgang mit Forschungsdaten etabliert (dies wurde u.a. auf dem
Netzwerktreffen des GeRDI-Projekts im Oktober 2018 deutlich;
vgl. auch die
FAIRGROUP der FORCE11-Community).
Das Akronoym FAIR steht für die folgenden zentralen, sich z.T. wechselseitig bedingenden, Postulate, an denen sich der Umgang mit Forschungsdaten orientieren sollte (
🔗):
- F — Findable
- A — Accessible
- I — Interoperable
- R — Reusable
Diese Schlagwörter bedingen implizit eine ganze Reihe von Konsequenzen für den Umgang mit digitalen Forschungsdaten.
Damit Daten auffindbar sind, sollte es mindestens ein zentrales Portal geben, über das Suchanfragen gestartet werden können. Es bietet sich an, den Nachweis der Forschungsdaten – gemeint sind im Wesentlichen ihr Inhalt sowie ihr Bewahrungsort – in die seit langem etablierten Bibliothekskataloge zu inkorporieren. Zu vermeiden wären alle Konzepte, die einen Suchvorgang an unterschiedlichen Stellen verlangen würden.
Um gefunden werden können, müssen Daten selbstverständlich auch physisch existent sein. Hierbei geht es weniger um die Frage der technischen Realisierung, die z.B. durch die flächendeckend bestehenden Rechenzentren geleistet werden kann, sondern vielmehr um die Frage nach der institutionellen Zuständigkeit. Auch unter diesem Aspekt bieten sich wiederum die Bibliotheken an, die aufgrund ihrer Geschichte, ihrer genuinen Aufgabe als Wissensbewahrer sowie ihrer langfristigen Bestandsperspektive eigentlich als konkurrenzlose Kandidaten für diese Aufgabe angesehen werden können.
Sie sollten die Verantwortung für die nachhaltige Bewahrung der digitalen Daten übernehmen. In welcher Form dies schließlich geschieht, ob die Bibliotheken eigene Repositorien aufbauen und verwalten oder auf Rechenzentren als Dienstleister zurückgreifen, ist von nachrangiger Bedeutung und kann von Fall zu Fall unterschiedlich gehandhabt werden.
Große Bedeutung besitzt die Konzeption und Vergabe von Metadaten, über die die eigentlichen Forschungsdaten auffindbar gemacht werden müssen. Unverzichtbar erscheint die Verwendung mindestens eines verbindlichen, hierarchisch aufgebauten Metadatenschemas, das unter Einbindung ebenfalls verbindlicher kontrollierter Vokabulare eine inhaltliche Kategorisierung der abgelegten Forschungsdaten erlaubt. VerbaAlpina hat sich vorläufig für das weit verbreitete und auch von der
UB der
LMU gewählte
Datacite-
Schema entschieden. Der Einsatz mehrerer konkurrierender Metadatenschemata wäre möglich, jedoch nur sinnvoll, wenn sie jeweils konsequent für alle erfassten Forschungsdaten angelegt werden. Untergeordnete fachspezifische Metadatenschemata können eine sinnvolle Ergänzung der übergeordneten Metadatenschemata darstellen.
Mit "accessible" ist vor allem die nicht durch rechtliche Schranken wie etwa das
Urheberrecht eingeschränkte Zugänglichkeit von Daten gemeint. Dieser Punkt ist am wenigsten von den Denjenigen zu beeinflussen, die Daten sammeln oder produzieren. Neben dem Urheberrecht ist bei Datensammlungen häufig der Schutz von Persönlichkeitsrechten zu beachten. Die Forderung nach Zugänglichkeit zielt demnach vor allem darauf ab, dass sämtliche Daten, die keiner rechtlichen Beschränkung unterliegen, von den Produzenten dieser Daten nicht eigens mit rechtlichen Zugangsbeschränkungen belegt werden. Konkret bedeutet das in erster Linie den Verzicht auf das Copyright und die Anwendung eines
Lizenzmodells, das konform ist mit den Bedingungen des Open Access. Weit verbreitet im wissenschaftlichen Umfeld ist die Verwendung der Creativecommons-Lizenzen (CC), von denen allerdings nicht alle die Kriterien für Open Access erfüllen. Insbesondere verstößt das Verbot kommerzieller Nutzung, das Teil einer CC-Lizenz sein kann, gegen das Konzept von Open Access. Der Grund besteht darin, dass nahezu jede Verwendung von Daten unter Umständen als "kommerzielle Nutzung" angesehen werden kann und eine klare Grenzziehung diesbezüglich aus juristischer Sicht so gut wie unmöglich ist (
s. auch dazu den Methodologie-Beitrag "
Lizenzierung").
Ebenso wie auch die Auffindbarkeit von Daten besitzt die Interoperabilität zwei, nämlich eine technische und eine theoretisch-organisatorische, Seiten. Um Datenbestände fruchtbringend miteinander zu verknüpfen und sich aufeinander beziehen zu lassen, bedarf es in vielen Fällen zunächst einer logischen Freingranulierung der Daten, die sich überdies an, zumeist fachspezifischen, Regeln orientiert. Eine ganz zentrale Rolle spielen in diesem Zusammenhang die
sog. Normdaten, bei denen es sich um definierte und, im Idealfall standardisierte, Konzeptkategorien handelt, deren einzelne Instanzen (digitale Objekte) bezogen auf eine klar definierte Art und Anzahl von Eigenschaften "distinct", also singulär sind. Die Belegung der einzelnen Objekte einer Konzeptkategorie mit numerischen oder alphanumerischen Identifikatoren ("
ID"s), erlaubt die unzweideutige Referenzierung von Objekten. Die Granulierung von Datenbeständen entlang den Grenzen von Kategorien und deren einzelnen Instanzen/Objekten in Verbindung mit der Verwendung der spezifischen Identifikatoren erlaubt sodann die Verknüpfung von getrennten Datenbeständen mit kongruenten Inhalten. Echter Mehrwert entsteht allerdings erst dann, wenn es auch technisch möglich ist, auf einzelne Objekte direkt zu referenzieren und so mit nur einem Klick von einem Datenbestand zu einem Objekt eines anderen Datenbestands zu gelangen. Dies erscheint nur dann möglich, wenn tatsächlich jedem einzelnen Datenobjekt ("Granum") eine eigene
URL zugewiesen wird. Im Sinne der Nachhaltigkeit muss schließlich jeder einzelnen
URL auch noch eine
DOI zugewiesen werden.
Die Wiederverwendbarkeit von Datenbeständen ergibt sich schließlich aus der sorgfältigen Beachtung und Umsetzung der drei vorangegangenen Postulate.
VerbaAlpina ist bemüht, sämtliche datenbezogenen Verfahren und Regelungen an den FAIR-Prinzipien auszurichten. Thomas Krefeld sieht darin grundsätzlich die Basis einer DH-Forschungsethik (Thomas Krefeld [2018]: Linguistische Theorien im Rahmen der
digital humanities. Korpus im Text. Version 2 (05.11.2018, 11:35). Absatz 4. url:
http://www.kit.gwi.uni-muenchen.de/?p=28010&v=2#p:4.). Der Auffindbarkeit der Daten dient die Kooperation mit der
UB der
LMU sowie dem DFG-Projekt
GeRDI, die derzeit im Rahmen des Projekts
e-humanities – interdisziplinär erfolgt. Vor allem der zentrale Datenbestand im
Modul VA_
DB wird im Zuge dessen versionsweise mit Metadaten versehen und in mehrerlei Gestalt an die
UB der
LMU übergeben, wo er in jedem Fall im
Open-Data-Repositorium abgelegt wird. Wenigstens die Metadaten werden anschließend zusätzlich in den Index inkorporiert, der aktuell im Rahmen des Projekts GeRDI aufgebaut wird. Ziel ist es, die von VerbaAlpina gesammelten und aufbereiteten Daten zentral über den Bibliothekskatalog der
UB und darüberhinaus auch über das noch in Entwicklung befindliche Suchportal des GeRDI-Projekts auffindbar zu machen. Sämtliche von VerbaAlpina verwalteten Daten werden, soweit möglich, unter eine Open-Access-konforme Creativecommons-Lizenz gestellt (bis Version 18/1 CC BY SA 3.0 de, ab 18/2 CC BY SA 4.0). Die Interoperabilität wird u.a. durch eine feine Granulierung des Datenbestands erreicht, die sich auch am
Konzept der Normdaten orientiert, indem bereits bestehende Normdaten mit dem Datenmaterial von VerbaAlpina verbunden werden. Dies ist z.B. möglich mit geographischen Daten, etwa den politischen Gemeinden, die das zentrale geographische Bezugssystem von VerbaAlpina darstellen. Für die für VerbaAlpina zentralen Datenkategorien "
morpholexikalischer Typ" und "
Konzept" existieren wenigstens teilweise bislang noch keine Normdaten, auf die die VerbaAlpina-Daten bezogen werden könnten. In diesen Fällen ist VerbaAlpina bemüht, in Kooperation mit prädestinierten Institutionen wie etwa der Deutschen Nationalbibliothek (
DNB) entsprechende Normdaten bzw. Normdatenkategorien einzurichten. Zur Bedienung der technischen Erfordernisse für eine effiziente Interoperabilität wird das zentrale lexikalische Datenmaterial datensatzweise in einer Vielzahl kleiner Dateien abgelegt, die schließlich über individuelle DOIs auf Open Data
LMU angesprungen werden können. Jeder einzelnen Datei wird außerdem eine Metadaten-Datei im Datacite-Format beigegeben. Die Gesamtheit der Metadaten ermöglicht schließlich das gezielte Auffinden einzelner Dateien über den Bibliothekskatalog.
und andere
vergleiche
Universitätsbibliothek
Ludwig-Maximilians-Universität München
siehe
sogenannt
Identifikationsnummer
Uniform Resource Locator
Digital Object Identifier
VerbaAlpina
Datenbank
Deutsche Nationalbibliothek
(
auct. Stephan Lücke)
Autor
Tags:
Informationstechnologie Im Zuge der Verbreitung digitaler Methoden rückt in jüngster Zeit die Frage ins Blickfeld, wie mit
sog. "Forschungsdaten" umzugehen sei. Es scheint so, als gingen die damit verbundenen Vorstellungen auf die Verhältnisse in den Naturwissenschaften zurück. Dort liegt häufig das Szenario vor, dass z. B. große Mengen von Messdaten zunächst erhoben und anschließend in interpretierenden Texten ausgewertet werden. Dabei ergibt sich eine scheinbar klare Zweiteilung, bei der ausschließlich die Messdaten als "Forschungsdaten" bezeichnet werden. Es mag sein, dass es bisweilen Usus war oder auch immer noch ist, die Forschungsdaten als ephemer und nicht dauerhaft bewahrenswert zu erachten. Das Forschungsdatenmanagement hat sich zum Ziel gesetzt, nicht nur die interpretierenden Texte, sondern auch eben jene als "Forschungsdaten" bezeichnete Daten, die die Grundlage für die Interpretation darstellen, langfristig zu bewahren und nachnutzbar zu machen.
Das Thema "Forschungsdatenmanagement" (FDM) wird derzeit (2018) in Deutschland sowohl auf Bundes- wie auch auf Länderebene stark gefördert, und es ist bereits mit einer Reihe einschlägiger Unternehmungen begonnen worden. Die entsprechenden Aktivitäten sind vor dem Hintergrund der Bestrebungen zur Errichtung einer
European Open Science Cloud (EOSC) auf EU-Ebene zu sehen. Für Deutschland sind auf überregionaler, bundesweiter Ebene in diesem Zusammenhang etwa die vom
"Rat für Informationsinfrastrukturen" (RfII) ausgesprochene Empfehlung zur Einrichtung einer
"Nationalen Forschungsdateninfrastruktur" (NFDI), die sich daran orientierende
NFDI-Arbeitsgruppe der Akademienunion (mit Schwerpunkt auf den Geisteswissenschaften) oder auch das seit 2016 von der
DFG geförderte und interdisziplinär ausgerichtete Projekt
"Generic Research Data Infrastructure" (GeRDI) zu nennen. Die Projekte
HeFDI ("Hessische Forschungsdateninfrastrukturen") in Hessen und das vom bayerischen Wissenschaftsministerium geförderte Projekt
"eHumanities – interdisziplinär" seien an dieser Stelle stellvertretend für FDM-Initiativen auf Landesebene genannt.
Aus der Perspektive der Geisteswissenschaften ist die vermeintlich klare Trennung zwischen Forschungs- und Interpretationsdaten bzw. -texten, so wie sie im Bereich der Naturwissenschaften vereinzelt vielleicht möglich sein mag, ausgesprochen problematisch bzw. fragwürdig. VerbaAlpina jedenfalls unternimmt keine entsprechende Unterscheidung, sondern betrachtet
sämtliche vom Projekt gesammelten und erzeugten Daten als ein untrennbar verwobenes Ganzes, dessen Einzelteile in vielfältiger Weise aufeinander bezogen sind. Im Sinne des "Forschungsdatenmanagements" deklariert VerbaAlpina demnach die Gesamtheit seiner auf die Module
VA_
DB,
VA_WEB und
VA_MT verteilten digitalen Daten (also Sprachdaten, Kommentare, Glossareinträge, Computercode, Mediendaten etc.) als Forschungsdatum, das getreu den
FAIR-Prinzipien und orientiert an den
einschlägigen Empfehlungen des RfII (
RfII 2016, Anhang A,
S. A-13) bewahrt werden muss. VerbaAlpina ist mit dem Status eines Pilotprojekts eingebunden in die bereits erwähnten Projekte GeRDI und "eHumanities – interdisziplinär".
Ein wesentlicher Aspekt des Forschungsdatenmanagements ist die Gewährleistung von Interoperabilität in dem Sinn, dass persistente projekt- bzw. datenbestandsübergreifende Verknüpfungen zwischen Teilmengen der jeweiligen Datenbestände möglich sind. Eine wichtige Rolle spielen dabei die
sog. DOIs, "Digital Object Identifier". Diese stellen die technische Voraussetzung für die dauerhafte,
URL-unabhängige Adressierbarkeit "digitaler Objekte" dar und sind für alle elektronischen Inhalte erzeugbar, die über eine
URL erreichbar sind. Im Umfeld des Bibliothekswesens wurden DOIs zunächst zur persistenten Identifizierung von elektronischen Buchpublikationen (z.B.
https://doi.org/10.5282/ubm/epub.25627) oder auch ganzen Websites (z.B.
http://dx.doi.org.emedien.ub.uni-muenchen.de/10.5282/asica) verwendet. Abweichend von dieser Praxis verlangt das Erfordernis der Interoperabilität zwischen getrennt erarbeiteten und verwalteten Datenbeständen eine wesentlich feinere Granulierung.
VA erzeugt zu diesem Zweck eine Reihe von im Internet über URLs erreichbaren Dateien, die das gesammelte Sprachmaterial gruppiert nach morpholexikalischen Typen, Konzepten, Herkunftsgemeinden und Einzelbelegen enthalten. Die Dateien sind mit den jeweils von
VA vergebenen IDs der jeweiligen Datenkategorie benannt. Dateien der Kategorie "Gemeinde" tragen am Anfang des Dateinamens ein "A", "C" markiert Konzepte und "L" morpholexikalische Typen. Die jeweils nachfolgende Nummer ist die von
VA vergebene
ID. Der Zugriff auf diese Daten ist über die Adresse
https://www.verba-alpina.gwi.uni-muenchen.de/export möglich. Die Zuweisung der DOIs erfolgt zunächst im Rahmen des Projekts "eHumanities – interdisziplinär" durch die
UB der
LMU, die überdies die Daten in ihren eigenen Datenbestand übernimmt und dort durch noch zu entwickelnde Verfahren und unter Anwendung eines geeigneten Metadatenschemas zusätzlich in der Tiefe inhaltlich erschließt. Ziel ist neben der Bereitstellung der Forschungsdaten im Repositorium die Integration und Auffindbarkeit der feingranulierten
VA-Daten in den Bibliothekskatalogen. Aus dem Bestand der
UB der
LMU werden die
VA-Daten außerdem in den Index des DFG-Projekts GeRDI übernommen und damit einer Nachnutzung in interdisziplinären Kontexten zugeführt.
s. auch
Normdaten
RfII – Rat für Informationsinfrastrukturen (Hrsg.) (2016): Leistung aus Vielfalt. Empfehlungen zu Strukturen,
Prozessen und Finanzierung des Forschungsdatenmanagements in Deutschland, Göttingen, 160
Link
sogenannt
VerbaAlpina
Datenbank
Seite
Digital Object Identifier
Uniform Resource Locator
Identifikationsnummer
Universitätsbibliothek
Ludwig-Maximilians-Universität München
siehe
(
auct. Sonja Kümmet [
UB der
LMU] | Stephan Lücke | Julian Schulz [
ITG] | Florian Zacherl)
Autor
Universitätsbibliothek
Ludwig-Maximilians-Universität München
IT-Gruppe Geisteswissenschaften (
LMU Center for Digital Humanities)
Ludwig-Maximilians-Universität München
Tags:
Informationstechnologie Die Aufgaben und Leistungen von VerbaAlpina können den folgenden Bereichen zugeordnet werden:
(1)
Dokumentation und sprachgeschichtliche Analyse des dialektalen Wortschatzes, der nach Maßgabe des
onomasiologischen Rahmes als charakteristisch eingeschätzt wird;
(2)
Kooperation mit
Projektpartnern zum gegenseitigen Datenaustausch und zur Datenanalyse;
(3)
Publikation des Datenbestandes, analytischer Texte und unterschiedlicher, projektbezogener Materialien, die sich teils an die fachliche, teils an die breite Öffentlichkeit richten.
Die Funktionen (1) bis (3) wurden mit der ersten Version 15/1 bereits aktiviert ; ergänzt wurden sie mit Version 17/1 um:
(4)
Datenerhebung durch
Crowdsourcing.
Alle aktiven Funktionen werden kontinuierlich ausgebaut. In der Vorbereitung befindet sich schließlich:
(5) die Einrichtung eines
Forschungslabors.
(
auct. Thomas Krefeld)
Autor
Tags:
Funktionsbereiche Die Mediathek von VerbaAlpina enthält eine umfangreiche, ständig wachsende Sammlung georeferenzierter Fotos; diese Aufnahmen erfüllen einen doppelten Zweck: Einerseits verweisen sie auf konkrete
Referenten mit all ihren idiosynkratischen Besonderheiten, die vor allem bei Gebäuden sehr ausgeprägt sein können; andererseits sollen die Fotos in möglichst anschaulicher Weise ein Konzept illustrieren und so zur Grundlage für die Erhebung weiterer Bezeichnungen des Konzepts werden. In dieser Funktion geht es also nicht darum, den spezifischen Referenten, also eine ganz bestimmte Almhütte, wiederzuerkennen. Das wäre sogar eher störend, denn in diesem Fall neigen Informanten dazu, den Eigennamen der Alm zu liefern, und nicht die Bezeichnungen des Konzepts. Das Risiko ist allerdings überschaubar; ein grundsätzliches Missverständnis ergibt sich eigentlich nur beim Wiederkennen bekannter Personen; hier ziehen die individuellen Merkmale die gesamte Konzentration des Betrachters auf sich, so dass der
Abgebildete spontan und unwillkürlich mit dem Namen genannt wird ("das ist doch der Willi!") – und nicht in der Funktion, die er auf dem Foto ausübt (SENN). Strenggenommen wäre daher zur Erhebung von Bezeichnungen die Verwendung idealisierter Zeichnungen anstelle von Fotos konkreter Objekte vorzuziehen; das scheitert jedoch am Fehlen entsprechender Vorlagen. Alle Abbildungen von Referenten sind über die Datenbank mit den Kategorien "
Konzept" und "
Bezeichnung" verbunden.
(
auct. Thomas Krefeld | Stephan Lücke)
Autor
Tags:
Außersprachlicher Kontext