Methodologie

Bislang existiert für die in der Methodologie publizierten Beiträge noch keine Volltextsuche. Eine solche befindet sich in Planung und Entwicklung und wird in einer der nächsten VerbaAlpina-Versionen zur Verfügung stehen. Bis dahin kann behelfsmäßig, nach Aufruf von "Alle Einträge anzeigen", die Volltextsuche der Browser (meist Strg+F) verwendet werden.
Sortierung

Alle Einträge anzeigen

A   B   C   D   E   F   G   H  I   J  K   L   M   N   O   P   Q   R   S   T   U   V   W   X  Y  Z  


Gemeinsame Normdatei (GND) (Zitieren)

Allgemeines zur GND

Die bibliothekarische Inhaltserschließung basiert im Grunde auf 2 Säulen:
  • Mittels Klassifikationen lässt sich eine (grobe) inhaltliche Einordnung vornehmen (DDC) und z.B. auch die Aufstellung von Literatur in Freihandbeständen organisieren (RVK).
  • Durch die Vergabe von Schlagwörtern bzw. Schlagwortketten (nicht mehr en vogue) lässt sich der Inhalt eines Werkes detaillierter beschreiben (GND).
In der GND wurden 2012 die bisherigen Normdateien PND (Personennamendatei), GKD (Gemeinsame Körperschaftsdatei), SWD (Schlagwortnormdatei) und EST (Einheitssachtitel des Deutschen Musikarchivs) zusammengeführt. Die frühere Differenzierung in Normdaten für die Formalerschließung und Normdaten für die Sacherschließung wurde damit aufgegeben. Heute gibt es pro Entität einen Datensatz, der in beiden Kontexten genutzt werden kann.

Zur Erschließungs- bzw. Vergabepraxis

  • Formalerschließer, d.h. Bibliothekare, die die formalen Metadaten einer Ressource erfassen, wie z.B. Autor, Titel, Erscheinungsjahr, usw., sind dazu angehalten, zumindest die mit der Ressource in Verbindung stehenden Personen (z.B. Autor, Herausgeber, gefeierte Person usw.) mit einem Eintrag in der GND zu verknüpfen. Auf diese Weise wird die Person eindeutig identifiziert. Ist eine Person noch nicht in der GND hinterlegt, wird eine neue Personen-Entität angelegt. Hierzu wird ein vorgegebenes Set an identifizierenden Informationen (z.B. Lebensdaten, Beruf, zugeordnete Einrichtung usw.) erfasst, das, wenn möglich, der vorliegenden Ressource entnommen wird. Eine einschlägige Informationsquellen ist aber z.B. auch der auf einer Institutsseite veröffentlichte Lebenslauf der Person.
  • Sacherschließer sind Bibliothekare, die den Inhalt einer Ressource erschließen. Hierbei stützen sie sich auf den Titel der Ressource, aber nicht ausschließlich. Nicht selten haben Ressourcen recht kunstvoll gestaltete Überschriften, die keinerlei Rückschluss auf den eigentlichen Inhalt zulassen. Sacherschließer gehen daher normalerweise so vor, dass sie sich anhand der Überschrift, des Klappentexts, des Inhaltsverzeichnisses, des Vorworts, der Einleitung, des Schlusses usw. einen Überblick über den Inhalt verschaffen. Anschließend fassen sie diesen in einer Handvoll Schlagwörtern zusammen. Für die Recherche nach geeigneten Schlagwörtern eignet sich z.B. die OGND.
Die DNB erprobt parallel Verfahren, mit denen Schlagwörter automatisiert vergeben werden können.

Zur GND im Kontext von Normalisierung und Datenaustausch

Bibliotheken haben schon recht früh damit begonnen, ihre Erschließungsdaten untereinander auszutauschen. Hierzu braucht es ein einheitliches (Austausch-)Format (MARC) und ein Vokabular (GND), das Bezeichnungen vereinheitlicht und gleichzeitig das Problem von Synonymen, Homonymen usw. behebt.
Seit einigen Jahren werden Daten nicht mehr nur zwischen Bibliotheken ausgetauscht, sondern auch zwischen verschiedenen Kultur- und Wissenseinrichtungen. Im Zuge dessen wird die GND, als eine Quelle von Normdaten, auch verstärkt von Archiven, Museen usw. eingesetzt; sie ist so für die digital humanities grundsätzlich relevant geworden. (Vgl. hierzu das GND4C-Projekt: https://www.dnb.de/DE/Professionell/ProjekteKooperationen/Projekte/GND4C/gnd4c.html)
Die Verwendung von Normdaten, speziell der GND, ermöglicht es Datenaggregatoren wie der Deutschen Digitalen Bibliothek, oder bavarikon, Objekte aus verschiedenen Sparten miteinander zu verknüpfen und damit ihre Auffindbarkeit zu verbessern.
Welchen Vorteil die GND in diesem Kontext bietet, lässt sich an einem (fingierten) Beispiel veranschaulichen:
In bavarikon gibt es z.B. ein Porträt von Martin Luther und gleichzeitig eine Münze mit dem Konterfei Martin Luthers. Beide Objekte haben Martin Luther als „Thema“; Sie können jedoch nur dann (auf einfachem Wege) vom System miteinander in Beziehung gesetzt werden, wenn in beiden Fällen im Feld dc:subject nicht nur ein String eingetragen ist, sondern ein eindeutiger Identifikator, wie z.B. die GND-ID (118575449). Werden statt eines Identifikators Strings verwendet, ist es gut möglich, dass diese voneinander abweichen, d.h. in diesen Fällen wäre zwar die gleiche Person gemeint, ihre Bezeichner würden sich jedoch unterscheiden. Dass dies gar nicht so unwahrscheinlich ist, verdeutlicht ein Blick auf die Spalte „Andere Namen“ des GND-Datensatzes:
http://d-nb.info/gnd/118575449. Einem Menschen fällt es nicht schwer, die (leicht) voneinander abweichenden Strings zusammenzuführen, für eine Maschine ist dies dagegen ein größeres Hindernis.

Zur GND im Kontext von Linked Data

Obwohl die GND mittlerweile auch vermehrt außerhalb von Bibliotheken eingesetzt wird, ist das Format der GND-Datensätze, MARC, stark domänenspezifisch und wird außerhalb der Bibliothekswelt nicht verwendet. Die GND Ontologie stellt einen Versuch dar, diese Lücke zu schließen, um die GND auch für die Verwendung im Semantic Web einsatzfähig zu machen, denn:

„The need for name disambiguation and entries having an authoritative character is an issue that concerns a lot more communities than the library world. In a growing information society the unique identification and linking of persons, places and other authorities becomes more and more important. The GND Ontology aims to transfer the made experience from libraries to the web community by providing a vocabulary for the description of conferences or events, corporate bodies, places or geographic names, differentiated persons, undifferentiated persons (name of undifferentiated persons), subject headings, and works.“
Eine Ontologie besteht aus den folgenden Komponenten:
  • Konzepte/Klassen fassen real existierende Instanzen mit gemeinsamen Eigenschaften zusammen; z.B. „Schlagwort“;
  • Instanzen/Begriffe, welche die eigentlichen Objekte darstellen, z.B. Butter, identifiziert durch die globale URI http://d-nb.info/gnd/4009236-7;
  • Relationen verbinden Konzepte und Instanzen miteinander; z.B. wird Butter über folgendes Konstrukt als ein Objekt der Klasse SubjectHeadingSensoStricto“ (einer Unterklasse der Klasse Schlagwort) ausgewiesen:<rdf:Description rdf:about="http://d-nb.info/gnd/4009236-7"><rdf:type rdf:resource="http://d-nb.info/standards/elementset/gnd#SubjectHeadingSensoStricto"/ß> (vgl. http://d-nb.info/gnd/4009236-7/about/rdf).

Ein Vorteil von Linked Data ist, dass die codierte Information sprachunabhängig ist. Im obigen Beispiel wird das durch den Begriff Butter repräsentierte Objekt, oder anders ausgedrückt, das real world object BUTTER, durch Properties (Eigenschaften) näher beschrieben. Der String Butter taucht zwar in der RDF-Datei auch auf, aber nur als ein Property der Ressource Butter:
<gndo:preferredNameForTheSubjectHeading rdf:datatype="http://www.w3.org/2001/XMLSchema#string">Butter</gndo:preferredNameForTheSubjectHeading> In einem Anwendungsfall, in dem man zusätzlich zum deutschen Begriff Butter die italienische Entsprechung bräuchte, könnte man hierfür einfach ein weiteres Triple (RDF basiert auf Triplen) bilden, z.B. bestehend aus der Ressource http://d-nb.info/gnd/4009236-7 als Subjekt, rdfs:label xml:lang=“it“ als Prädikat und dem Literal (String) burro.

Angenommen die Biblioteca nazionale Firenze würde mit ihrem Nuovo Soggetario Thesaurus ähnlich verfahren wie die DNB mit der GND, könnte man die Ressource Butter in der GND mit der Ressource burro im Nuovo Soggetario Thesaurus z.B. über die Property owl:sameAs in Verbindung setzen, um auszudrücken, dass in beiden Fällen das gleiche real world object BUTTER beschrieben wird.
Mit dem Property <skos:broadMatch rdf:resource="http://zbw.eu/stw/descriptor/14957-0"/> wird z.B. die GND-Ressource Butter mit der ZBW-Ressource Streichfett in Beziehung gesetzt.

(auct. Sonja Kümmet [UB der LMU])

Tags: Informationstechnologie Außersprachlicher Kontext



Georeferenzierung  (Zitieren)

Ein wesentliches Ordnungskriterium der in VerbaAlpina verwalteten Daten ist die Georeferenzierung unter Verwendung von Breiten- und Längengraden. Die Genauigkeit dieser Referenzierung variiert je nach Datentyp, wobei grundsätzlich eine möglichst exakte, metergenaue Referenzierung angestrebt wird. Im Fall der Sprachdaten aus Atlanten und Wörterbüchern ist in aller Regel lediglich eine vergleichsweise ungefähre Referenzierung nach Maßgabe eines Ortsnamens möglich, im Fall von z. B. archäologischen Daten hingegen sind tatsächlich metergenaue Georeferenzierungen möglich. Es können Punkte, Linien (etwa Straßen, Flüsse u. Ä.) und Flächen gespeichert werden. Aus technischer Perspektive findet hauptsächlich das sogenannte WKT-Format (https://en.wikipedia.org/wiki/Well-known_text) Verwendung, das in der VA-Datenbank mit der Funktion geomfromtext() (https://dev.mysql.com/doc/refman/5.7/en/gis-wkt-functions.html in ein spezifisches MySQL-Format überführt und so gespeichert wird. Die Ausgabe im WKT-Format erfolgt durch die MySQL-Funktion astext().
Referenzraster der Georeferenzierung ist das Netz der politischen Gemeinden im Alpenraum, die, je nach Bedarf, entweder als Fläche oder als Punkte ausgegeben werden können. Basis sind dabei die Grenzverläufe der Gemeinden mit Stand von etwa 2014, die VerbaAlpina von seinem Partner "Alpenkonvention" erhalten hat. Eine ständige Aktualisierung dieser Daten, die sich aufgrund nicht seltener Verwaltungsreformen durchaus häufiger verändern, ist entbehrlich, da es sich aus Sicht von VerbaAlpina lediglich um einen geographischen Referenzrahmen handelt. Die Punktdarstellung des Gemeinderasters wird algorithmisch aus den Gemeindegrenzen abgeleitet und ist somit sekundär. Die errechneten Gemeindepunkte stellen die geometrischen Mittelpunkte der Gemeindeflächen dar und markieren höchstens zufällig den Hauptort oder gar deren Mittelpunkt. Im Bedarfsfall können sämtliche Daten einzeln oder kumulierend auf den errechneten Gemeindepunkt projiziert werden. Dies ist etwa bei den Sprachdaten aus Atlanten und Wörterbüchern der Fall.
Zusätzlich zum exakt georeferenzierten Referenzraster der Gemeindegrenzen wird (ab Version 16/1) ein wabenförmiges quasi-georeferenziertes Raster dargestellt, das zwar die ungefähre Lage der Gemeinden zueinander wiedergibt, gleichzeitig jedoch jedem Gemeindegebiet eine idealisierte Fläche jeweils gleicher Form und Größe zuweist. [Bild:va_polygone-1.jpg]] Damit werden alternative Kartierungsverfahren angeboten, die beide ihre Vor- und Nachteile haben und wegen ihrer Bildlichkeit auch beide ein gewisses suggestives Potential mitbringen: Die topographische Darstellung vermittelt wegen ihrer Präzision einen besseren Einblick in die konkrete Räumlichkeit mit ihren oft sehr speziellen Geländeprofilen, einzelnen Übergängen, Talverläufen, unzugänglichen Talausgängen usw. Die Wabenkarte erlaubt dagegen eine abstrahiertere Visualisierung der Daten, da sie die Größen der Gemeindeflächen sowie siedlungsgeographische Ballungen bzw. Streuungen ausgleicht. Das ist besonders bei quantitativen Karten nützlich, denn die Größe der Fläche erzeugt schon bei der Wahrnehmung unwillkürlich den Eindruck quantitativen Gewichts. Die Ermittlung der Geoinformationen zu den jeweiligen Erhebungspunkten erfolgte mittels eines Online Tools. Bedingt durch nicht eindeutige Benennung der Ortschaften, sowie nicht Erkenbarkeit der Namen, war eine manuelle Korrektur der Angaben nötig. Leider ist die Ermittlung der Geokoordinaten seit einiger Zeitaus rechtlichen Gründen nicht mehr möglich.


(auct. Thomas Krefeld | Stephan Lücke)

Tags: Linguistik Informationstechnologie Außersprachlicher Kontext



Gruppieren und Sortieren  (Zitieren)

Nicht selten sind in den Kategorien, die in der 'interaktiven Karte' ausgewählt werden können, bereits zahlreiche sprachliche Ausdrücke verfügbar; so führt die Suche nach dem 'Konzept' BUTTER zum Beispiel zu 1748 Belegen. Es wird daher die Möglichkeit gegeben, alle relevanten Ausdrücke nach unterschiedlichen Kriterien zu gruppieren und sortieren: vgl. Konzept BUTTER

Eine Sortierung nach Basistypen zeigt die sprachgrenzüberschreitenden Verbreitungsareale, hier den romanischen Typen butyru(m) im deutschen Sprachgebiet und den deutschen Typ Schmalz im romanischen: Vgl. Karte.

Eine entsprechende Option ergibt sich auch bei der Suche nach morpho-lexikalischen Typen; vor allem die Sortierung nach dem Kriterium 'Konzept' ist auch unabhängig vom erfassten Sprachraum von Interesse, weil sie die Polysemie eines jeden Ausdrucks freilegt (vgl. morpho-lexikalischer Typ malga).
Als Ergebnis resultieren die folgenden Bedeutungen, die untereinander in klarer metonymischer Beziehung stehen: Vgl. Karte Polysemie des morpho-lexikalischen Typs.


(auct. Thomas Krefeld)

Tags: Webseite