Metodologija

sortiranje/razvrščanje

Prikaži vse zapise

A   B   C   D   E   F   G   H  I   J   K   L  M   N   O   P  Q  R   S   T   U  V   W  X  Y  Z  


Digitalizacija  (citiranje)

Digitalizacija v projektu VerbaAlpina ne pomeni preproste uporabe računalnikov za elektronsko obdelavo podatkov, ampak nasprotno in v bistvu digitalno globinsko obdelavo gradiva s sitematičnim in preglednim strukturiranjem in kategorizacijo.





Pri tem se uporablja skorajda izključno relacijski podatkovni model, pri katerem je podatkovno gradivo organizirano načelno v obliki preglednic. Preglednice so sestavljene iz vrstic (= zapisov, n-terčkov) in stolpcev (= atributov, polj, lastnosti), pri čemer se da vsako preglednico razširiti v vsako smer z dodatnimi vrsticami in stolpci. Med preglednicami obstajajo logične zveze, ki omogočajo smiselne povezave in ustrezne sinoptične prikaze (stike, joins) dveh ali več preglednic. Za urejanje preglednic uporablja VerbaAlpina trenutno sistem za upravljanje podatkovnih zbirk MySQL. Vendar pa preglednice niso vezane na ta sistem, ampak jih je mogoče npr. v besedilni obliki z enoumno določujočimi ločili za meje polj in podatkov (t. i. separatorji) skupaj z imeni stolpcev in dokumentacijo logičnih zvez (entitetnopovezavni model) kadar koli izvoziti. Trenutno pogosto rabljena struktura XML se na operativnem področju VerbeAlpine ne uporablja. V okviru vmesniškega koncepta pa je XML zasidran kot izvozni format.

Poleg logičnega strukturiranja podatkov igra v povezavi z digitalizacijo drugo osrednjo vlogo kodiranje jezikovnih znakov. Prav zaradi dolgoročnega arhiviranja podatkovnega gradiva je pravilno ravnanje s to tematiko zelo pomembno. VerbaAlpina se pri tem kar se da ravna po kodnih preglednicah in zahtevah konzorcija Unicode. Pri digitalizaciji jezikovnih znakov, ki doslej še niso bili sprejeti v unikodno preglednico, je posamezni znak digitalno zajet predvsem z nizanjem v obliki zaporedja znakov z unikodnega področja x21 do x7E (v območju ASCII). Ustrezne določitve pripadnosti so dokumentirane v posebnih preglednicah, s čimer je vedno možna poznejša pretvorba v unikodne vrednosti, ki bodo takrat morda na razpolago.

(auct. Stephan Lücke – trad. Peter Weiss)







VerbaAlpina
Splošni digitalizacijski koncept za besedilne vire

Etiketiranje,
širitev,
povezava

D3; preglednica; db & csv; strukturirano elektronsko besedilo

D2; besedilna datoteka; txt & doc; linearizirano elektronsko besedilo

D1; skenogram; jpg; dvojiška koda

D0; papir; –; jezikovni atlas / slovar

((Vertikal:))
Stopnje digitalizacije

Analiza, filter

P3 P2 P1

Fazni prehodi

Izvoz podatkov

XML
SQL
CSV
TXT
...

HTML
PDF
PS
papir
...



Tags: Dokumentation



Digitalna humanistika  (citiranje)

Projekt VerbaAlpina je bil že zasnovan s pogledom na možnost spletnega predstavljanja, saj namerava odločno prispevati k prenašanju uveljavljenih izročil družbenih in humanističnih ved, natančneje geolingvistike, v digitalno humanistiko.
To pomeni:
(1) Empirična osnova raziskovanja temelji na podatkih (prim. Schöch 2013), to je v digitalno kodiranih in strukturiranih enotah ali vsaj takih, ki se jih da strukturirati; pri tem gre za delno že objavljene podatke (kot je npr. starejše gradivo iz atlasov), delno pa tudi za podatke, ki se pridobivajo na novo. Z mislijo na relevantne koncepte si prizadevamo za kar se da obsežne podatkovne zbirke. Metoda je torej kvantitativna in v glavnem induktivna.
(2) Raziskovalna komunikacija poteka v internetnih medijskih razmerah. To najprej omogoča, da se hipertekstualno prepletejo različni mediji (pisava, slika, video in zvok); v prihodnje lahko osebe, ki so udeležene kot raziskovalci (predvsem kot projektni partnerji) in/ali kot informatorji, še naprej komunicirajo in sodelujejo med seboj.
(3) S tem je zainteresiranim raziskovalcem dana možnost, da so udeleženi pri razvoju te raziskovalne platforme in da pri njej sodelujejo. Ta perspektiva je uporabna vsaj v dveh pogledih in vodi naprej: dopušča povezovanje različnih stališč in predvsem pospeševanje konstruktivnega križanja informacijske tehnologije in jezikovne geografije z javnimi viri, ne da bi bilo treba poseči po (pravno in ekonomsko problematični) podpori zasebnih informacijskotehnoloških podjetij.
(4) Projektno relevantno znanje se da dolgoročno kontinuirano zbirati in preoblikovati, čeprav je tehnično še težko zajamčiti trajno dostopnost (prim. pomembno raziskovalno infrastrukturo CLARIN-D http://de.clarin.eu/de/home.html). Vsekakor objavljanje rezultatov na dejanskih medijskih nosilcih (knjige, cedeji ali devedeji) ob vsem tem ni nikakršna osrednja potreba več; kljub temu je omogočena drugotna možnost tiskanja, kot jo občasno daje tudi spletna leksikografija, npr. zgledni Tesoro della Lingua Italiana delle Origini.

(auct. Thomas Krefeld – trad. Peter Weiss)

Tags: Kooperation Crowdsourcing



Dolgoročno arhiviranje  (citiranje)

Z vsemi podatki projekta VerbaAlpina se upravlja tako, da bodo kar se da dolgo ostali berljivi in uporabni. Načrtovana perspektiva obsega pri tem vsaj več desetletij, osnovni koncept pa ima navsezadnje za cilj ohranitev brez časovne omejitve.

Natančneje so upoštevani tile vidiki:
1. Kateri ustanovi (katerim ustanovam) je zaupano hranjenje podatkov oz. nosilcev podatkov?
2. Dokumentacija strukturiranja podatkov logičnih povezav med podatki in podatkovnimi kategorijami (entitetni odnos)
3. Dokumentacija uporabljenega kodiranja (uporabljenih kodiranj) znakov

Več kopij projektnih podatkov naj bo arhiviranih pri več različnih ustanovah. Trenutno sta za to predvidena informacijskotehnološka skupina Družbene in humanistične vede Univerze Ludvika in Maksimilijana v Münchnu (ITG) s povezavo na strežnik za arhiviranje Leibničevega računalniškega centra in repozitorij BAS Clarin. Načrtuje se hranjenje dodatnih varnostnih kopij pri drugih ustreznih ustanovah. Arhiviranje se izvaja v ritmu novih različic. Vsakič se shranijo zbirke podatkov z vsemi projektnimi podatki (modul VA_DB skupaj z entitetnoodnosnim modelom) in spletno ogrodje, ki skrbi za predstavljanje podatkov na internetu (vključno z vsakokratno funkcionalnostjo), tako da je – vsaj teoretično – možna »obuditev« vsake posamezne različice v ustrezno emuliranem operacijskosistemskem oz. programskem okolju. Arhivirana je tudi medijska knjižnica, v kateri so predvsem fotografije, filmi ter besedilni in zvočni dokumenti (modul VA_MT).

(auct. Stephan Lücke – trad. Peter Weiss)


Tags: Publikation