Metodologija

sortiranje/razvrščanje

Prikaži vse zapise

A   B   C   D   E   F   G   H  I   J   K   L   M   N   O   P   Q  R   S   T   U   V   W   X  Y  Z  


Gemeinsame Normdatei (GND)

splošno o GND

Indeksiranje knjižnične vsebine v osnovi temelji na dveh stebrih:
  • S pomočjo klasifikacij je mogoče opraviti (grobo) vsebinsko klasifikacijo (DDC) in na primer organizirati seznam literature v zbirkah z odprtim dostopom (RVK).
  • Z dodeljevanjem ključnih besed ali verig ključnih besed (ne več en vogue) je mogoče natančneje opisati vsebino dela (GND).
V letu 2012 so bile v GND združene prejšnje standardne datoteke PND (Personennamendatei = normativna datoteka osebnih imen), GKD (Gemeinsame Körperschaftsdatei = normativna datoteka korporativnih imen), SWD (Schlagwortnormdatei = normativna datoteka predmetnih oznak) in EST (Einheitssachtitel des Deutschen Musikarchivs = zbirka naslovov nemškega glasbenega arhiva). Tako je bilo opuščeno prejšnje ločevanje na standardne podatke za formalno indeksiranje in standardne podatke za predmetno indeksiranje. Danes je na voljo en podatkovni niz na entiteto, ki se lahko uporablja v obeh kontekstih.

O razvoju in praksi podeljevanja

  • Formalni popisovalci, tj. knjižničarji, ki zapisujejo formalne metapodatke o viru, kot so avtor, naslov, leto izida itd., morajo vsaj osebe, povezane z virom (npr. avtor, urednik, slavljenec itd.), povezati z vnosom v GND. Na ta način je oseba jasno identificirana. Če oseba še ni vnesena v GND, se ustvari nova entiteta osebe. V ta namen se zabeleži določen obseg identifikacijskih informacij (npr. življenjski podatki, poklic, dodeljena institucija itd.), ki se, če je mogoče, prevzamejo iz razpoložljivega vira. Vendar je ustrezen vir informacij na primer tudi življenjepis osebe, kateri je objavljen na spletni strani institucije.
  • Predmetni popisovalci so knjižničarji, ki popisujejo vsebino vira. Pri tem se opirajo na naslov vira, vendar ne izključno. Neredko se zgodi, da imajo viri precej zapletene naslove, ki ne nakazujejo dejanske vsebine. Predmetni popisovalci zato običajno nadaljujejo s pregledom vsebine na podlagi naslova, oglasa, kazala, predgovora, začetka, zaključka itd. Nato jih povzamejo v nekaj ključnih besedah. Za iskanje primernih ključnih besed je primerna na primer OGND.
Hkrati DNB (= nemška narodna knjižnica) preizkuša postopke, s katerimi se lahko ključne besede dodelijo avtomatično.

O GND v okviru normalizacije in izmenjave podatkov

Knjižnice so si že zelo zgodaj začele med seboj izmenjevati podatke o indeksiranju. Za to sta potrebna enoten (izmenjevalni) format (MARC) in besednjak (GND), ki standardizira poimenovanja in hkrati rešuje problem sinonimov, homonimov itd. Že nekaj let se podatki ne izmenjujejo le med knjižnicami, temveč tudi med različnimi kulturnimi ustanovami in institucijami znanja. Pri tem GND kot vir podatkov o standardih vse pogosteje uporabljajo tudi arhivi, muzeji itd.; s tem je postal zelo pomemben za digital humanities. (Prim. projekt GND4C: https://www.dnb.de/DE/Professionell/ProjekteKooperationen/Projekte/GND4C/gnd4c.html)
Uporaba standardnih podatkov, zlasti GND, agregatorjem podatkov, kot je Nemška digitalna knjižnica ali bavarikon, omogoča povezovanje objektov iz različnih sektorjev in s tem izboljšanje njihove najdljivosti.
Prednost od GND v tem kontekstu lahko prikažemo z (namišljenim) primerom:
V bavarikonu je na primer portret Martina Luthra in hkrati kovanec s podobo Martina Luthra. Oba predmeta imata za "predmet" Martina Luthra, vendar ju lahko sistem (na preprost način) poveže le, če v obeh primerih v polje dc:subject ni vnesen le niz (string), temveč tudi enolični identifikator, kot je GND-ID (118575449). Če se namesto identifikatorja uporabijo nize, je povsem mogoče, da se med seboj razlikujejo, tj. v teh primerih bi bila mišljena ista oseba, vendar bi se njeni identifikatorji razlikovali. Pogled na stolpec "Druga imena" v zbirki podatkov GND jasno pokaže, da to sploh ni malo verjetno:
http://d-nb.info/gnd/118575449. Človeku ni težko združiti (nekoliko) različnih nizov, za računalnik pa je to večja ovira.

O GND v kontekstu povezanih podatkov (Linked Data)

Čeprav se GND zdaj vse pogosteje uporablja tudi zunaj knjižnic, je oblika zapisov GND, MARC, izrazito domensko specifična in se zunaj knjižničnega sveta ne uporablja. GND Ontologija predstavlja poskus zapolnitve te pomanjkljivosti, da bi bil GND uporaben tudi za uporabo v semantičnem spletu (Semantic Web), saj:

„The need for name disambiguation and entries having an authoritative character is an issue that concerns a lot more communities than the library world. In a growing information society the unique identification and linking of persons, places and other authorities becomes more and more important. The GND Ontology aims to transfer the made experience from libraries to the web community by providing a vocabulary for the description of conferences or events, corporate bodies, places or geographic names, differentiated persons, undifferentiated persons (name of undifferentiated persons), subject headings, and works.“
Ontologija je sestavljena iz sledečih komponent:
  • Koncepti/razredi združujejo dejanske obstoječe primere s skupnimi lastnostmi; npr. "ključna beseda";
  • Primerki/termini, ki predstavljajo dejanske predmete, npr. butter, identificirani z globalnim URI http://d-nb.info/gnd/4009236-7;
  • Relacije povezujejo koncepte in primere med seboj; npr. Butter je identificiran kot objekt razreda "SubjectHeadingSensoStricto" (podrazred razreda ključna beseda) prek naslednje konstrukcije:<rdf:Description rdf:about="http://d-nb.info/gnd/4009236-7"><rdf:type rdf:resource="http://d-nb.info/standards/elementset/gnd#SubjectHeadingSensoStricto"/ß> (prim. http://d-nb.info/gnd/4009236-7/about/rdf).

Ena od prednosti povezanih podatkov (LinkedData) je, da so kodirane informacije neodvisne od jezika. V zgornjem primeru je predmet, ki ga predstavlja izraz Butter, ali z drugimi besedami real world object BUTTER, podrobneje opisan z lastnostmi. Niz (string) Butter se prav tako pojavi v datoteki RDF, vendar le kot Property od vira Butter:
<gndo:preferredNameForTheSubjectHeading rdf:datatype="http://www.w3.org/2001/XMLSchema#string">Butter</gndo:preferredNameForTheSubjectHeading> V primeru uporabe, ko bi poleg nemškega izraza Butter potrebovali tudi italijanski ekvivalent nemškega izraza butter, bi lahko za to preprosto oblikovali drugo trojico (RDF temelji na trojicah), npr. sestavljeno iz vira http://d-nb.info/gnd/4009236-7 kot subjekt, rdfs:label xml:lang="it" kot predikat in dobesednega (LIteral) (niza) burro.

Ob domnevi, da bi Biblioteca nazionale Firenze s svojim tezavrom Nuovo Soggetario Thesaurus ravnala podobno kot DNB z GND, bi lahko vir Butter v GND povezali z virom burro v tezavru Nuovo Soggetario, npr. prek lastnosti owl:sameAs, da bi izrazili, da je v obeh primerih opisan isti real world object BUTTER.
Z Property <skos:broadMatch rdf:resource="http://zbw.eu/stw/descriptor/14957-0"/> je na primer vir GND Butter povezan z virom ZBW Streichfett.

(auct. Sonja Kümmet [UB der LMU] – trad. Eva Jezovnik)

Tags: Informacijska tehnologija Zunajjezikovni kontekst



Georeferenciranje

Bistveno razvrščevalno merilo pri podatkih, s katerimi upravljamo v VerbiAlpini, je georeferenciranje z uporabo širinskih in dolžinskih stopinj. Natančnost tega referenciranja se spreminja glede na tip podatkov, pri čemer pa si načelno prizadevamo za kar se da, do metra natančno referenciranje. Pri jezikovnih podatkih iz atlasov in slovarjev je na splošno možno le sorazmerno približno referenciranje v sorazmerju s krajevnim imenom, pri npr. arheoloških podatkih pa je dejansko možno do metra natančno georeferenciranje. Shraniti je mogoče pike, črte (recimo ceste, reke ipd.) in ploskve. S tehničnega vidika se uporablja predvsem tako imenovani format WKT), ki ga v zbirki podatkov VerbeAlpine s funkcijo geomfromtext() (https://dev.mysql.com/doc/refman/5.7/en/gis-wkt-functions.html) pretvorimo v specifični format MySQL in ga tako shranimo. Do izvoza v formatu WKT pridemo s funkcijo astext() v formatu MySQL.
Referenčni raster georeferenciranja je mreža političnih občin v alpskem prostoru, ki so – po potrebi – lahko predstavljene ali kot ploskve ali kot točke. Osnova pri tem so poteki mej občin po stanju približno leta 2014, ki jih je VerbaAlpina dobila od svojega partnerja, Alpske konvencije. Neprestano aktualiziranje teh podatkov, ki se zaradi neredkih upravnih reform vsekakor zelo pogosto menjajo, je nepotrebno, ker gre s stališča VerbeAlpine samo za geografski referenčni okvir. Točkovna predstavitev rastra občin se izpelje iz občinskih mej algoritemsko in torej sekundarno. Izračunane občinske točke predstavljajo geometrična središča občinskih ploskev in kvečjemu slučajno označujejo glavni kraj ali celo njegovo središče. Po potrebi se lahko skupni podatki posamič ali nakopičeni odslikajo na izračunano občinsko točko. Tako je recimo pri jezikovnih podatkih iz atlasov in slovarjev.


(auct. Thomas Krefeld | Stephan Lücke – trad. Peter Weiss)

Tags: lingvistika Informacijska tehnologija Zunajjezikovni kontekst