Metodologia

Selezione

Mostrare tutti i contributi

(no Tag)   Contesto extralinguistico   Ambiti di funzione   Tecnologia dell'informazione   Linguistica   Pagina Web  


Archiviazione a lungo termine  (Citazione)

Tutti i dati del progetto VerbaAlpina vengono gestiti in modo tale che rimangano leggibili e utilizzabili per un periodo il più lungo possibile. La prospettiva temporale presa in considerazione dal progetto comprende diversi decenni, sebbene il concetto che sta alla base sia orientato ad una conservazione dei dati senza limite temporale.

Vengono considerati i seguenti aspetti:
1. Quale istituzione viene incaricata/quali istituzioni vengono incaricate della conservazione dei dati e rispettivamente dei supporti in questione?
2. Documentazione della strutturazione dei dati così come delle relazioni logiche tra dati e categorie di dati (entità-relazione);
3. Documentazione delle codifiche di carattere impiegate.

Più copie dei dati del progetto dovranno essere archiviate presso più istituzioni diverse. Tale compito è attualmente affidato all'IT-Gruppe Geisteswissenschaften della LMU (vale a dire il gruppo di tecnologia dell'informazione del dipartimento di scienze umane dell'Università di Monaco di Baviera, ITG). Questo gruppo è legato ai server di archiviazione del Leibniz-Rechenzentrum, così come al BAS Clarin Repository.
Il progetto prevede il deposito di ulteriori copie di backup presso altre istituzioni appropriate. L'archiviazione segue il ciclo previsto per il controllo versione. Il database viene archiviato con tutti i dati del progetto (modulo VA_DB insieme al modello entità-relazione); lo stesso vale per il framework web (VA_WEB), responsabile per la presentazione dei dati nel web (inclusa la rispettiva funzionalità): in questo modo è possibile (almeno in teoria) effettuare un "richiamo" di ogni singola versione in rispettivi ambienti di sistema operativo o di software emulati. Soggetta ad archiviazione è, inoltre, la mediateca che contiene soprattutto foto, film, testi e documenti audio (modulo VA_MT).

Il sito di VerbaAlpina (VA_WEB) viene salvato ad intervalli irregolari nell'archivio internet https://archive.org. All'indirizzo https://web.archive.org/web/*/http://verba-alpina.gwi.uni-muenchen.de/ è possibile recuperare le versioni precedenti di VerbaAlpina. La versione più vecchia ivi inserita risale al 10 novembre del 2014. Le archiviazioni si effettuano in parte in automatico tramite "Wayback"-Crawler fornito da archive.org, e in parte attivamente tramite VerbaAlpina, che dal 2018 si prefigge una revisione del sito da compiere a scadenze regolari (ogni 6 mesi).

(auct. Stephan Lücke – trad. Susanne Oberholzer)

Tags: Tecnologia dell'informazione



Codepage  (Citazione)

In VerbaAlpina sono riuniti dati provenienti da fonti di carattere diverso: dati da atlanti linguistici e dizionari cartacei che devono in un primo tempo essere digitalizzati, così come dati già esistenti in forma elettronica e messi a disposizione da alcuni partner di cooperazione. Ognuna di queste fonti utilizza un sistema di trascrizione più o meno individuale. Per attuare una standardizzazione sono necessarie delle liste in cui si stabilisce quale corrispondenza trovino determinati caratteri, propri di un sistema di trascrizione di una specifica fonte, nel sistema di trascrizione di un'altra fonte. Si tratta essenzialmente di rappresentare i diversi sistemi di trascrizione nell'alfabeto fonetico internazionale (IPA) che funge da trascrizione di referenza per VerbaAlpina. Per adattare un sistema di trascrizione specifico di una fonte al sistema IPA è necessaria la costruzione di una lista completa in forma di tabella contenente tutte le corrispondenze dei caratteri. Tale tabella viene chiamata "codepage". Di seguito viene presentato un estratto dalla codepage, basilare per la conversione del sistema di trascrizione dell'AIS in IPA. Questa codepage contiene intorno alle 4500 righe/associazioni in totale:


La colonna 'BETA' contiene i caratteri utilizzati nell'AIS nella forma trascritta secondo il principio del codice beta; la colonna 'IPA' contiene il carattere IPA corrispondente, e la colonna 'HEX' contiene il valore numerico specifico (/i valori numerici specifici) della tabella Unicode che corrisponde(/corrispondono) al rispettivo carattere IPA.

Per una panoramica completa delle codepage di tutte le fonti di VerbaAlpina si veda qui.

(auct. Stephan Lücke – trad. Susanne Oberholzer)

Tags: Linguistica Tecnologia dell'informazione



Codice beta  (Citazione)

Seguendo la terminologia del Thesaurus Linguae Graecae (TLG), nell'ambito di VerbaAlpina la trascrizione di sistemi di scrittura complessi con l'impiego esclusivo di caratteri ASCII viene denominata come "codice beta". Il TLG ha sviluppato il concetto corrispondente all'inizio degli anni settanta del Novecento per il rilevamento di testi greci antichi con i mezzi digitali allora disponibili. La grafica seguente illustra la tecnica in base all'esempio dell'Atlante italo-svizzero (AIS):





In un primo tempo viene fatta una semplice distinzione tra carattere di base e segni diacritici nel momento in cui si trasferisce la trascrizione fonetica secondo Böhmer-Ascoli, utilizzata nell'atlante linguistico, in sequenze che consistono in caratteri ASCII. Se un carattere di base è presente nel codice ASCII, questo segno rappresenterà se stesso (cosa possibile nell'esempio presentato). Direttamente dopo il carattere di base seguono tutti i diacritici legati ad esso; ogni diacritico viene sostituito da un carattere ASCII speciale. L'attribuzione dei diacritici a caratteri ASCII è univoca all'interno di VerbaAlpina e viene documentata in tabelle speciali nel database di VerbaAlpina. La scelta dell'attribuzione è guidata, per quanto possibile, dal principio della somiglianza ottica. Nell'esempio menzionato, l'uncino sotto la u nella parola tu viene rappresentato da una parentesi tonda aperta: tu(. I diacritici vengono scritti seguendo l'ordine della loro disposizione rispetto al carattere di base: si scrivono nell'ordine dal basso all'alto e da sinistra a destra dopo il carattere di base. I segni diacritici vengono attribuiti a caratteri ASCII indipendentemente dalla semantica specifica della fonte corrispondente a causa del principio della somiglianza ottica. Ciò significa che: anche se un uncino sotto un carattere di base ha un significato fonetico completamente diverso in una certa fonte rispetto a un'altra fonte, in VerbaAlpina entrambi gli uncini vengono rappresentati da una parentesi posposta. Le differenze semantiche vengono documentate nelle tabelle di trascrizione che sono specifiche per ogni fonte: regolano la conversione del codice beta alla trascrizione output secondo IPA (una stessa codifica beta può dunque essere presente in codifiche IPA completamente diverse a seconda della fonte).
Il procedimento descritto è vantaggioso da diversi punti di vista:
- Il rilevamento dei dati avviene sulle tastiere standard in una velocità comparativamente alta ed è indipendente dal sistema operativo.
- Le persone che trascrivono non hanno bisogno di conoscenze di sistemi di trascrizione fonetici.
- Si può rilevare qualsiasi carattere rispettivamente diacritico, indipendentemente dal fatto che siano cifrate in Unicode o meno
- Il rilevamento dei dati elettronico avviene senza perdita d'informazione.
Attraverso la routine di sostituzione, il codice beta può essere trasferito in quasi qualsiasi altro sistema di trascrizione. Sull'onda di queste conversioni si può incorrere eventualmente in una perdita d'informazioni, perdita che però è causata dalla natura dei sistemi di trascrizione stessi. La trascrizione fonetica secondo Böhmer-Ascoli fa una distinzione tra i diversi gradi di apertura in modo molto più dettagliato di quanto sia previsto dal sistema IPA.

(auct. Thomas Krefeld | Stephan Lücke – trad. Susanne Oberholzer)

Tags: Linguistica Tecnologia dell'informazione



Concessione di licenze  (Citazione)

L'utilizzo del copyright, soprattutto in ambito scientifico, comporta il fatto che i contenuti essenziali per la comprensione delle conoscenze basate sugli stessi, non possono essere utilizzati in pubblicazioni scientifiche oppure lo sono solamente in parte. Molto spesso ci si interroga su quali utilizzi siano ancora coperti dal diritto di citazione. Fino a questo momento non è ancora stato chiarito se un autore del quale si devono utilizzare le opere perde i diritti se è defunto da più di 70 anni oppure se i suoi diritti dopo la morte passano a terzi. Ogni autore di pubblicazioni scientifiche (ma non solo) dovrebbe avvertire questa regola come una limitazione importante che, complessivamente, ostacola massivamente il progresso della scienza. Il Copyright non è un modello adatto per l’attività scientifica.
VerbaAlpina si sente in obbligo di mettere a libera disposizione di terzi tutti i contenuti elaborati dallo stesso VerbaAlpina in conformità ai cosiddetti principi FAIR e al pensiero open access. VerbaAlpina si trova tra le iniziative e istituzioni che si impegnano per la diffusione e l’attuazione di questo ideale (vedi ad esempio Open Science Center della LMU). Una limitazione nell’utilizzo dei contenuti di VerbaAlpina esiste solo nel momento in cui i dati che VerbaAlpina ha acquisito da pagine terze e che sono coperti da condizioni di utilizzo restrittive come ad esempio il Copyright, anche da parte di VerbaAlpina devono essere diffusi solamente rispettando le condizioni di utilizzo originarie. Ad esempio singoli file media presenti in VA-Modul e VA_MT, che VerbaAlpina ha ricevuto da fonti esterne, sono coperti da Copyright. Gli elementi interessati da questa condizione di utilizzo particolare vengono segnalati individualmente con i relativi simboli. VerbaAlpina si impegna costantemente a indicare le condizioni di utilizzo vigenti per ogni contenuto a meno che queste non si trovino nel quadro di una licenza open-access. Nel caso di violazioni da parte di VerbaAlpina – soprattutto per quanto riguarda le violazioni del diritto d’autore – si chiede di darne immediata segnalazione a VerbaAlpina. I contenuti interessati dall’infrazione saranno, di conseguenza, immediatamente eliminati.

Tutti i dati e i contenuti liberamente accessibili e utilizzabili dal punto di vista giuridico e ai sensi dell’open-access vengono sottoposti, da parte di VerbaAlpina, alla licenza Crative-Commons (CC). Secondo questa licenza, per l’utilizzo e la diffusione dei dati è necessaria solamente l’indicazione dell’autore e il rispetto della diffusione secondo le condizioni originarie. Queste condizioni vengono indicate nella nomenclatura dei CC attraverso le abbreviazioni “BY” e “SA” (“share alike”). VerbaAlpina rinuncia coscientemente al divieto all’utilizzo commerciale (abbreviazione CC “NC” – “non-commercial”), in quanto questo può rendere impossibile un riutilizzo dei dati per scopi scientifici (si veda l’intervento "Offene Lizenzen – ein Werkstattbericht zu den rechtlichen Herausforderungen im Jahr 2015 " [circa dal minuto 13] di Thomas Harmann). In questo senso, la clausola “NC” non è compatibile con il pensiero open-access (vedi https://open-access.net/informationen-zu-open-access/rechtsfragen/lizenzen/, paragrafo "Das Creative Commons-Modell", consultato il 09.10.2018).

Mentre le licenze CC della versione 3.0 erano state adattate al sistema giuridico tedesco, la versione 4.0 attuale (2018) rinuncia a questo adeguamento. Le conseguenze per VerbaAlpina sono difficili da ipotizzare. Il portale https://open-access.net/, gestito dalla Biblioteca Nazionale e Universitaria della Bassa Sassonia con sede a Göttingen spiega: “Attualmente non è ancora chiaro quale siano le conseguenze della traduzione delle licenze standard in una lingua straniera sconosciuta al fruitore della licenza stessa” (https://open-access.net/informationen-zu-open-access/rechtsfragen/lizenzen/, consultato il 09.10.2018). Per questo motivo, VerbaAlpina segue la pratica corrente della Biblioteca Universitaria della LMU e, a partire dalla versione 18/2 (dicembre 2018), mette a disposizione tutti i contenuti che non rientrano nelle eccezioni sopraccitate con una licenza CC BY-SA 4.0. (https://creativecommons.org/licenses/by-sa/4.0/). Alle älteren Versionen stehen in analogem Sinn unter der CC-Lizenz BY-SA 3.0 de (http://creativecommons.org/licenses/by-sa/3.0/de/). Anche tutte le versioni meno recenti sono coperte da licenza CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0/de/).

Per il codice software sviluppato da VerbaAlpina, viene applicata la Licenza MIT, molto utilizzata nel campo dello sviluppo di software. In questo modo i codici software sono liberamente messi a disposizione per l’utilizzo.

I moduli di VerbaAlpina (VA_DB, VA_WEB e VA_MT) e i dati contenuti in questi sono soggetti alle seguenti licenze Creative Commons:




CC BY-SA 3.0 DE (http://creativecommons.org/licenses/by-sa/3.0/it/; "Attribuzione, StessaLicenza") (dipendente dall'oggetto) rispettivamente




CC BY-NC-SA 3.0 DE (http://creativecommons.org/licenses/by-nc-sa/3.0/it/; "Attribuzione, NonCommerciale, StessaLicenza").

Singoli file nel modulo VA_MT che VA ha ricevuto o comprato da fonti di dati esterne possono essere soggette al Copyright. Gli oggetti nel modula VA_MT vengono marcati individualmente con segni caratteristici corrispondenti.

Il sistema di concessione di licenze così come anche i diritti d'accesso dei diversi gruppi di utenti VA è documentato dalla grafica seguente:





(auct. Stephan Lücke – trad. Beatrice Colcuc | Susanne Oberholzer)

Tags: Tecnologia dell'informazione Pagina Web



Controllo di autorità  (Citazione)

Il termine CONTROLLO DI AUTORITÀ ha la sua origine nella biblioteconomia. Nei cataloghi delle pubblicazioni è essenziale poter identificare senza ambiguità gli autori al fine di poter assegnare le opere al rispettivo autore, indipendentemente dalle diverse ortografie o dai cambiamenti di nome. La stessa necessità si presenta anche per quanto riguarda gli indici delle opere registrate da ogni biblioteca, ad esempio per poter identificare senza ambiguità ad esempio termini geografici oggetto di diversi saggi e per poterli mettere in relazione tra loro. Queste necessità hanno portato alla creazione di corrispondenti liste onomasiologiche, le quali, in un primo momento, sono state gestite localmente dalle singole biblioteche.

La possibilità di collegare tecnicamente i contenuti delle banche dati in rete risale agli anni ’70. Questa operazione necessitava però un adattamento dei singoli elenchi gestiti fino a quel momento individualmente dalle biblioteche. A tal fine, a partire dagli anni '80 (ma le prime progettazioni risalgono agli anni '70), le singole biblioteche iniziarono ad adattare le proprie liste e a creare elenchi comuni di persone e di parole chiave al fine di ottenere una certa omogeneità tra le biblioteche. Nel corso del tempo sono stati creati elenchi tematici separati: un indice di persone (Personennamendatei, PND), un indice di organismi (Körperschaftsdatei, GKD) e un indice di parole chiave (Schlagwortnormdatei, SWD). Tuttavia, si è capito che le separazione tematica non era utile, soprattutto perché gli individui e gli organismi possono figurare non solo come autori o redattori, ma possono essere anche l’oggetto stesso delle pubblicazioni. Per questo motivo essi devono essere presi in considerazione anche nella creazione degli indici per le parole chiave. Per questo motivo, tra il 2009 e il 2012 i tre indici separati sono stati riuniti attraverso un'operazione della Biblioteca Nazionale Tedesca e delle associazioni bibliotecarie di lingua tedesca formando il cosiddetto Common Standards File (GND). A partire dal 2012 questo file è disponibile al pubblico in diversi formati (MARC 21 Authority, MARC21-xml und RDFxml) ed è sempre più utilizzato nella creazione di indici anche al di fuori del sistema bibliotecario. Così, il controllo di autorità è registrato anche nei progetti digital humanities dell’ITG (Gruppo Tecnologia dell’Informazione delle Scienze Umane) BMLO (Bayerisches Musiker-Lexikon online) e Kaiserhof e utilizzati per l’identificazione univoca delle persone.

All’indirizzo http://ognd.bsz-bw.de/ (del Servizio Bibliotecario del Baden-Württemberg) viene messo a disposizione un utile strumento per la ricerca all’interno del GND. I file conformi al GND sono gestiti da istituzioni, soprattutto da biblioteche, situate in tutto il mondo. Il progetto VIAF (Virtual International Authority File), avviato congiuntamente da DNB e dalla Library of Congress, esiste dal 2003, e ha come obiettivo quello di riunire queste banche dati in un unico sistema e renderle disponibili al pubblico.

Anche se il sistema del controllo di autorità consente teoricamente l'identificazione univoca di persone e concetti, la concreta fruibilità dipende dalla sua attuazione tecnica all'interno dei cataloghi elettronici delle biblioteche. Ad esempio, nei cataloghi della DNB e della Bayerische Staatsbibliothek (BSB), la ricerca del termine “Homère” dà risultati contenenti solamente l’ortografia tedesca “Homer”. Tuttavia, attualmente (nov. 2018), attraverso un click sul nome dell'autore, si può accedere all'elenco dei titoli relativi non non solo al singolo individuo in questione, ma anche relativi ad autori che portano lo stesso nome.

Anche se il concetto di controllo di autorità è da ricercarsi nell’ambiente della biblioteconomia, nel corso del tempo, esso si è eseso anche ad altri settori. A titolo esemplificativo si possono nominare i seguenti progetti: Geonames (Entità Geographica), Pleiades (Entità antica Geographica) oppure anche Glottolog (Entità lingue del mondo).

Tra l'altro, il controllo di autorità è molto importante per l’interoperabilità richiesta dall’iniziativa FAIR. Oltre a creare un indice dei contenuti dei cataloghi bibliotecari, attraverso la definizione di un controllo e l'assegnazione di un identificatore alfanumerico è possibile collegare in maniera logica e tecnica dati presenti in banche dati separate.

Dal punto di vista metodologico, VerbaAlpina auspicherebbe la creazione di un controllo di autorità per le categorie "tipo morfolessicale" (⇒ tipizzazione) e "concetto". Questo permetterebbe di contrassegnare ciascun tipo morfolessicale e ciascun concetto con un identificatore. In questo modo, i dati lessicali potrebbero essere collegati tra di loro in tutto il mondo e, nel caso dei concetti, il collegamento si effettuerebbe indipendentemente dalla singola lingua. Tuttavia, ad oggi, approcci di questo tipo si possono osservare solo occasionalmente. Nei database strutturati del progetto Wikidata, vengono assegnati i cosiddetti Q-ID che identificano in modo univoco concetti non linguistici e forniscono così un riferimento comune e identico per i diversi articoli nelle diverse versioni linguistiche di Wikipedia sullo stesso argomento. Ad esempio, il concetto ALMHÜTTE è identificato in Wikidata con il Q-ID Q2649726. Questa voce in Wikidata si riferisce agli articoli di Wikipedia assegnati ad oggi (ottobre 2018) per un totale di sette lingue diverse. Dei 2629 concetti attualmente (ottobre 2018) registrati da VerbaAlpina, esattamente 400 sono stati finora contrassegnati da un QID. I Q-ID, qualora disponibili, sono registrati nel database di VerbaAlpina. Un'identificazione sistematica e analoga come quella di Wikipedia e Wikidata sembra ancora esistere. Le L-ID per le denominazioni delle lingue sono state assegnate solo in maniera grossolana, ma non è chiaro se si intendono creare dei tipi più precisamente definiti.

Sulla base del modello degli ID del controllo di autorità, VerbaAlpina assegna i propri identificatori per le categorie di dati (entità) "concetto", "tipo morfolessicale" (vedi Tipizzazione) e "comune", che possono essere collegati ad altri sistemi di controllo di autorità già stabiliti come i Q-ID del progetto Wikidata attraverso una semplice mappatura. VerbaAlpina sta inoltre cercando di includere la categoria di dati "tipo morfolessicale" nel sistema Common Standards File (GND). La prospettiva esiste, soprattutto perché il GND deve essere ampliato in termini di contenuto e struttura e adattato alle esigenze della scienza, delle istituzioni culturali generali e degli individui. La conferenza GNDCon 2018 prevista per dicembre 2018 è destinata a fungere da momento di discussione a questo scopo. I membri della Biblioteca Universitaria di Monaco e dell'ITG porteranno avanti in questa sede gli interessi di VerbaAlpina.

La GND distingue attualmente le seguenti entità: Organismo (Sigla: b), Conferenza (f), Geografia (g), Persona (non individualizzata) (n), Person (individualizzata) (p), Concetto (s) e Opera (u) (http://www.dnb.de/SharedDocs/Downloads/DE/DNB/standardisierung/inhaltserschliessung/entitaetenSatztypen.pdf?__blob=publicationFile). Un documento DNB della categoria "Working aids for the common standards file (GND)" afferma inoltre che per la categoria "lettere, morfemi, parole come oggetto di indagine linguistica" il codice specifico dell'entità "slz" è inteso come sottocategoria dell'entità "nozione". È ovvio collegare che i dati di VerbaAlpina dovranno essere collegati a questa categoria.

Letteratura:
Capellaro 2003

(auct. Stephan Lücke – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione



Controllo versione  (Citazione)

VerbaAlpina consiste nei moduli seguenti:

-VA_DB: file di dati nel database del progetto (MySQL) (va_xxx)
-VA_WEB: codice di programma dell'interfaccia web del portale www.verba-alpina.gwi.uni-muenchen.de insieme al database Wordpress (va_wp) che ci appartiene
-VA_MT: file media (foto, film, testi e documenti audio) che si trovano nella mediateca dell'interfaccia web

Tutti e tre i moduli formano un'unità consistente, con connessioni e dipendenze corrispettive, e non possono perciò essere separati l'uno dall'altro. Durante la durata del progetto lo stato attuale dei moduli VA_DB e VA_WEB viene "congelato" ogni sei mesi, il 15 giugno e il 15 dicembre di ciascun anno, e in modo simultaneo sotto forma di una copia elettronica. A queste copie congelate sono attribuite dei numeri di versione secondo lo schema [anno civile]/[numero di serie] (per esempio 15/1). Alla versione VA alla volta produttiva è attribuita la denominazione XXX (cfr. modo di citare).

La produzione di copie della mediateca VA (VA_MT) è impedita a causa della dimensione molto grande dei file media. Per questa ragione non si fanno delle copie di questo modulo sull'onda del processo di controllo versione. Gli elementi una volta deposti nella mediateca VA non possono più essere eliminati, quando una versione VA è connessa a essi.

Nel portale del progetto esiste la possibilità di passare da una versione all'altra, ovvero l'utente ha la possibilità di passare dalla versione "produttiva", mutevole in continuazione, e le versioni archiviate, "congelate". Attraverso la cromaticità del fondo rispettivamente di certi elementi di comando l'utente può comprendere se si trova nella versione produttiva o in una delle versioni archiviate di VA. Devono essere citate *solo* le versioni archiviate di VA .

Frontespizi di versioni precedenti di VerbaAlpina:

Fienile nei pressi di Fex Platta, nella val Fex vicino a Sils Maria, Alta Engadina (Immagine: Thomas Krefeld)

Cascina sulla Roßsteinalm, sopra Lenggries (Immagine: Thomas Krefeld)

15/1

Autunno in Sudtirolo nei pressi della val Passiria (Immagine: Susanne Oberholzer)

15/2

Lavorazione del mascherpa, Lombardia (Immagine: Formaggio Bitto )

16/1

Alpsee, Immenstadt nell'Allgäu (Immagine: Christina Mutter)

16/2

Raccolta del fieno nel Chiemgau (Immagine: archivio Groth-Schmachtenberger, Freilichtmuseum Glentleiten)

17/1

Raccolta del fieno (Immagine: archivio Groth-Schmachtenberger, Freilichtmuseum Glentleiten)

17/2

Raccolta del fieno (Immagine: archivio Groth-Schmachtenberger, Freilichtmuseum Glentleiten)

18/1

Panorama invernale sulla Plose sopra Bressanone (I)(Immagine: Stephan Lücke)

18/2

Vista sulle Odle attraverso l'Alpe di Siusi (Immagine: Stephan Lücke)

19/1

Alpi della Zillertal (Immagine: Thomas Krefeld)

19/2



(auct. Stephan Lücke – trad. Susanne Oberholzer)

Tags: Tecnologia dell'informazione



Descrizione di concetto  (Citazione)

I concetti vengono rilevati nella tabella KONZEPTE del database nel modo seguente: nel caso in cui esista una denominazione lessicalizzata di un concetto, questa denominazione viene iscritta nella casella di database 'Name_I' (denominazione italiana). Quando la lessicalizzazione manca, la casella rimane vuota. Indipendentemente dall'esistenza di una denominazione viene specificato o definito il concetto nella casella 'Beschreibung_I' (descrizione italiana). Questo avviene seguendo un modo di procedere definito illustrato dall'esempio del concetto 'BRENTINA' (ID_Konzept 137; identificatore del concetto nel database): il concetto menzionato viene denominato con un lessema specifico, per questo viene iscritta brentina in 'Name_I'. La descrizione prevede l'ordine gerarchico seguente: attrezzo, scopo, materiale, forma (eventualmente). Applicato al concetto del esempio ne risulta la descrizione seguente: RECIPIENTE, PER IL TRASPORTO DEL LATTE SULLE SPALLE, DI LEGNO. Ove possibile/necessario dovranno inoltre essere osservate queste regole: i numeri 1-10 vengono scritti in lettere; nella descrizione di un processo, di un'attività ecc. è utilizzata la costruzione 'per+infinito' oppure 'per+articolo+sostantivo'. Osservando questo modello traduzioni analoghe, la formazione di categorie indipendenti da lingue particolari a diversi livelli di astrazione (->RECIPIENTI ->RECIPIENTI PER IL TRASPORTO ->RECIPIENTI DI LEGNO ecc.), correzioni automatizzate o modifiche, e una ricerca trasparente sono rese possibili. Tutti i concetti vengono rilevati in questo modo nelle lingue tedesca, italiana, francese, slovena e romancia.

(auct. Giorgia Grimaldi | Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Tecnologia dell'informazione



Digital Object Identifier (DOI)  (Citazione)

Il Digital Object Identifier (DOI) è un indirizzo universalmente univoco e invariabile attraverso il quale risorse elettroniche, come per esempio i siti web, possono essere raggiunte. L'accessibilità è garantita anche nei casi in cui ad esempio il cosiddetto "Uniform Resource Locator" (URL) di una risorsa venga modificato. Questo si fa attraverso un semplice mapping: la fondazione DOI ha un registro in cui è associato l'URL attuale di una risorsa a ogni DOI. Se cambia un URL, cambia corrispondentemente l'entrata nel registro della fondazione DOI. I cambi devono essere comunicati alla fondazione DOI dalle organizzazioni associate (per esempio dalle biblioteche) che avevano fatto registrare i DOI in questione. La registrazione di VerbaAlpina nel registro DOI ha luogo attraverso il "Referat Elektronisches Publizieren" della biblioteca universitaria della LMU. Tale centro non si occupa della registrazione direttamente presso fondazione DOI, bensì presso DataCite, membro della fondazione DOI.

Il vantaggio del sistema DOI consiste nella possibilità di citare di modo durevole le risorse elettroniche. Una citazione DOI guida anche alla risorsa giusta se l'indirizzo in rete, l'URL, è cambiato. Il DOI di VerbaAlpina è doi:10.5282/verba-alpina; il numero 10.5282 appartiene all'organizzazione che ha effettuato la registrazione, ovvero la biblioteca universitaria della LMU. Affinché una citazione in un testo scientifico porti direttamente al portale di VerbaAlpina, il DOI deve essere inserito nell'URL della fondazione DOI: http://dx.doi.org/10.5282/verba-alpina. Non è però possibile accedere direttamente a risorse parziali specifiche sul portale VerbaAlpina (per esempio a singoli file della mediateca di VerbaAlpina [VA_MT]) attraverso il DOI. Per fare questo sarebbe necessario un DOI aggiuntivo per ogni risorsa parziale di VerbaAlpina.

Quasi allo stesso scopo serve il cosiddetto Uniform Resource Name (URN), e anche le modalità di funzionamento sono più o meno le stesse. Diversamente rispetto al DOI, l'URN permette la registrazione di diversi URL per una stessa risorsa. Tale opzione può essere interessante se le risorse vengono deposte da server differenti con corrispondenti URL diversi al fine della prevenzione di guasti o della durata. Un certo svantaggio di URN rispetto a DOI consiste nel fatto che il registro URN non è condotto da un'unica istituzione, bensì da diverse organizzazioni nazionali decentralizzate. In Germania è la Deutsche Nationalbibliothek (DNB) ad assumersi questo compito. Per questo per le risorse che sono registrate attraverso la DNB, deve essere aperto il server della DNB che gestisce gli URN (un cosidetto resolver). L'URN di VerbaAlpina è urn:nbn:de:bvb:19-verba-alpina-8, l'URL corrispondente con il resolver DNB che porta al portale di VerbaAlpina è http://nbn-resolving.de/urn:nbn:de:bvb:19-verba-alpina-8. Come anche per il DOI, non è possibile accedere direttamente a risorse parziali specifiche sul portale di VerbaAlpina attraverso l'URN.

Fondamentalmente è possibile registrare DOI e URN anche per risorse parziali di un dominio (ad esempio singole pagine web o file media). Alternativamente, le risorse parziali di un dominio possono essere raggiunte attraverso l'inserimento dei parametri URL nel DOI. Per fare questo è necessaria una sintassi particolare, illustrata sulla base del seguente esempio: il DOI che si riferisce alla URL dell'articolo Management dei dati di ricerca (https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=493&db=xxx&letter=F#112 ) si presenta nel seguente modo:

http://dx.doi.org/10.5282/verba-alpina?urlappend=/%3fpage_id=493%26db=xxx%26letter=F#112

L'esempio mostra che, i punti di domanda e le cosiddette 'e commerciali' (&) devono essere sostituiti attraverso il relativo valore esadecimale del tratto nella tabella unicode ? = 3f, & = 26).

Fonte: Dreyer 2012

(auct. Stephan Lücke | Julian Schulz [ITG] – trad. Beatrice Colcuc | Susanne Oberholzer)

Tags: Tecnologia dell'informazione



Digitalizzazione  (Citazione)

Nel contesto di VerbaAlpina, con il termine digitalizzazione non si intende il semplice impiego dei computer per la memorizzazione di dati elettronici, bensì la profonda elaborazione digitale del materiale attraverso la *strutturazione* e la categorizzazione sistematiche e trasparenti.



Nel progetto, si utilizza quasi esclusivamente il modello relazionale in cui i dati vengono organizzati da principio in forma di tabella. Le tabelle consistono di righe (= record, tupla) e colonne (= attributi, caselle, campi dato); ogni tabella può essere ampliata in ogni direzione aggiungendo ulteriori righe e colonne. Tra le tabelle esistono relazioni logiche che permettono concatenamenti sensati e corrispondenti raffigurazioni sinottiche (i cosiddetti "joins") di due o più tabelle. Per l'amministrazione delle tabelle, VerbaAlpina impiega attualmente il sistema di gestione di banca-dati MySQL. Le tabelle però non sono legate a questo sistema, ma possono essere esportate in qualsiasi momento, per esempio in forma di testo con delimitatori univocamente definibili per limiti di casella oppure di record (i cosiddetti separatori), insieme con i nomi di colonna e la documentazione delle relazioni logiche (modello entità-relazione). Non viene invece impiegata nel campo operativo di VerbaAlpina la struttura XML che è usata al momento molto spesso in altri ambiti. XML è però compreso come formato di esportazione nell'ambito del concetto di interfaccia.

Oltre alla strutturazione logica dei dati, il secondo concetto importante nel contesto del lemma "digitalizzazione" concerne la codifica dei caratteri. La tematica ha grande importanza proprio riguardo all'archiviazione a lungo termine dei dati e deve essere gestita in maniera previdente. Per quanto sia possibile, VerbaAlpina si richiama in questo contesto alla tabella di codifica e alle direttive del cosiddetto Unicode Consortium. Nel caso della digitalizzazione di caratteri che finora non sono entrati nella tabella Unicode il rilevamento digitale del carattere è effettuato di preferenza attraverso serializzazione sottoforma di una serie di caratteri dell'intervallo x21 fino x7E di Unicode (all'interno del repertorio ASCII). Le associazioni corrispondenti vengono documentate in tabelle speciali per cui una conversione posteriore in valori Unicode poi possibilmente esistenti è sempre possibile.

(auct. Stephan Lücke – trad. Susanne Oberholzer)

Tags: Linguistica Tecnologia dell'informazione



Entità-relazione  (Citazione)

In linea di massima, i dati possono essere riuniti in cosiddette "entità". Si tratta di classi di dati che presentano una certa natura e un certo numero di caratteristiche specifiche. Così, le città di Trento, Innsbruck e Lucerna possono formare per esempio la classe "luoghi" alla quale appartengono le caratteristiche "nome di luogo", "grado di longitudine", "grado di latitudine", "stato" e "numero di abitanti". I singoli membri di una tale classe si distinguono tra di loro per i diversi valori delle caratteristiche che formano questa classe.

In una banca dati relazionale, ciascuna entità viene idealmente salvata in una tabella separata. Le colonne di queste tabelle separate comprendono i valori di una caratteristica specifica. Le righe comprendono i membri individuali della classe dei dati (entità), tali membri si distinguono tra di loro per i valori della caratteristica. In quasi tutti i casi – così anche in VerbaAlpina – una banca dati relazionale rappresenta una raccolta di entità diverse (e con questo tabelle diverse) tra le quali esistono delle relazioni logiche. Così l'entità "informante", definita attraverso le caratteristiche "età", "sesso", "luogo di nascita" e "luogo di residenza", è legata all'entità "luoghi" in maniera logica, cosicché i valori della caratteristica "luogo di nascita" e "luogo di residenza" hanno delle corrispondenze nell'entità "luoghi". Le relazioni tra i membri di queste due entità nascono dalla corrispondenza del valore di una o più caratteristiche (congruenti nella loro natura) della rispettiva entità. In questo caso, teoricamente, potrebbe risultare un'associazione tra valori identici delle caratteristiche "luogo di nascita" e "nome di luogo" attraverso la quale si possono assegnare attraverso un informante le coordinate geografiche del suo luogo di nascita. È apparente che in questo esempio si possono presentare dei problemi dovuti a omonimi. Per evitare problemi di questo genere è consuetudine utilizzare numeri interi come identificatori (abbreviazione: "ID") in modo da definire univocamente i membri di un'entità.

Il sistema descritto delle entità e delle loro relazioni logiche viene chiamato "entità-relazione". I dati raccolti in una banca dati relazionale sono difficilmente intellegibili e utilizzabili senza una spiegazione delle dipendenze che vi sono comprese. L'entità-relazione viene rappresentata normalmente in forma di uno schema grafico.

L'entità-relazione è soggetta ad adattamenti continui e dunque, a cambiamenti durante le fasi di sviluppo cicliche di VerbaAlpina (v. controllo versione). A ogni versione archiviata di VerbaAlpina viene aggiunto il modello entità-relazione della versione della banca dati che ne è alla base in forma di un diagramma ER che è creato con il programma yEd e salvato come documento GraphML- e PDF. I diagrammi creati utilizzando strumenti automatici non sono successivamente modificati graficamente in quanto tale operazione necessiterebbe di una mole di lavoro considerabile. Per questo motivo e a causa della grande complessità delle strutture rappresentate, questi, in linee generale, non sono immediatamente comprensibili alle persone esterne. Allo stesso tempo, essi contengono tutte le informazioni necessarie per comprendere la struttura della banca dati di VA (VA_DB) e rappresentano quindi una condizione importante per poter utilizzare la banca dati anche successivamente alla fine del progetto.

La grafica seguente si basa sulle entità e le relazioni del database VA_XXX nel suo stato attuale (20.3.2015), non la rappresenta però completamente ed è solo da intendere come esempio illustrativo:





(auct. Stephan Lücke – trad. Beatrice Colcuc | Susanne Oberholzer)

Tags: Tecnologia dell'informazione



Formato dei dati  (Citazione)

Si veda Modellazione dei dati

Tags: Tecnologia dell'informazione



Georeferenziazione  (Citazione)

La georeferenziazione (utilizzando gradi di latitudine e di longitudine) è un criterio di ordine essenziale per la gestione dei dati di VerbaAlpina. L'esattezza di questa referenziazione varia a seconda del tipo di dati. Il progetto aspira però a una referenziazione più esatta possibile, precisa al metro. Di norma, nel caso di dati linguistici provenienti da atlanti e dizionari, è possibile solo una referenziazione approssimativa secondo il toponimo; nel caso di dati archeologici sono però possibili georeferenziazioni precise al metro. Possono essere salvati punti, linee (come strade, fiumi ecc.) e superfici. Dalla prospettiva tecnica viene utilizzato soprattutto il cosiddetto formato WKT (https://en.wikipedia.org/wiki/Well-known_text) che viene trasferito nel database di VerbaAlpina in un formato MySQL specifico attraverso la funzione geomfromtext() (https://dev.mysql.com/doc/refman/5.7/en/gis-wkt-functions.html. L'output nel formato WKT avviene attraverso la funzione MySQL astext().

Il retino di referenza della georeferenziazione forma la rete dei comuni politici nello spazio alpino che possono essere rappresentate o come superficie o come punti. Ne formano la base le demarcazioni del confine dei comuni che VerbaAlpina ha ricevuto dal suo partner Convenzione delle Alpi; tali dati sono aggiornati circa al 2014. Un aggiornamento di questi dati, spesso mutanti a causa di riforme amministrative, è superfluo perché, dal punto di vista di VerbaAlpina, si tratta di un mero quadro di referenza geografico. La raffigurazione di punto del retino di comune viene dedotta attraverso gli algoritmi relativi ai confini del comune e risulta quindi essere secondaria. I punti di comune stabiliti rappresentano i centri geometrici delle superfici di comune e marcano soltanto per caso il capoluogo o il punto centrale del comune. Se necessario, tutti i dati possono essere proiettati sul punto di comune stabilito o singolarmente o cumulativamente. Questo è il caso per esempio per i dati linguistici di atlanti e dizionari.

Aggiuntivamente al retino di referenza esattamente georeferenziato dei confini comunali, (a partire dalla Versione 16/1) il territorio preso in considerazione da VerbaAlpina viene rappresentato attraverso una griglia a nido d’ape, quasi georeferenziata, che mostra grosso modo la localizzazione dei comuni ma che, allo stesso tempo, visualizza ogni comune attraverso una forma idealizzata uguale in forma ed estensione. [Bild:va_polygone-1.jpg]] Si mettono così a disposizione tipi di cartografie diverse, ognuna con i propri vantaggi e svantaggi, le quali, attraverso le capacità di rappresentazione che possiedono, portano con sé un potenziale suggestivo: grazie alla sua precisione, la rappresentazione topografica può mostrare più chiaramente la struttura del territorio attraverso profili paesaggistici particolari, singole transizioni, corsi vallivi sbocchi inaccessibili di vallate e così via. La carta a nido d’ape permette invece una visualizzazione più astratta dei dati in quanto, livella l’estensione delle superfici comunali e gli agglomerati geopopolati. Questa funzione è utile soprattutto per le cartine quantitative poiché l’estensione delle superfici genera involontariamente l’impressione di un'importanza quantitativa già nel momento della percezione.

(auct. Thomas Krefeld | Stephan Lücke – trad. Beatrice Colcuc | Susanne Oberholzer)

Tags: Linguistica Tecnologia dell'informazione Contesto extralinguistico



Gestione dei dati di ricerca  (Citazione)

La sempre più repentina diffusione dei metodi digitali ha fatto emergere la questione del trattamento dei cosiddetti “dati di ricerca”. ###Sembra come se le idee collegate a quello si riferiscano alle relazioni nelle diverse discipline naturali#### All’interno di queste discipline si ritrova molto spesso lo scenario che grandi masse di dati siano in primo luogo raccolte e successivamente interpretate attraverso i testi### Da questa idea risulta una suddivisione chiara in due parti nella quale solo le misurazioni possono essere considerate “dati di ricerca”. Può darsi che fino adesso sia stata oppure che sia ancora consuetudine considerare i dati ricerca come effimeri e che, per questo motivo, essi non vadano conservati per lungo tempo. L’obiettivo della gestione dei dati di ricerca non è quello di conservare a lungo termine solamente i testi interpretativi, bensì anche i “dati di ricerca” che stanno alla base dell’interpretazione e anche di renderli riutilizzabili.

Il tema della “gestione dei dati di ricerca” (FDM) ad oggi (2018) è fortemente promosso in Germania sia a livello federale sia a livello dei singoli Länder attraverso una serie di impegni di rilievo. Le relative attività sono state avviate in considerazione della volontà di istituire un cosiddetto European Open Science Cloud (EOSC) a livello europeo. In Germania, a livello interregionale e nazionale il “Rat für Informationsinfrastrukturen" (ita. Consiglio per le infrastrutture dell’informazione scientifica) ha proposto ad esempio le seguenti misure: la creazione di una "Infrastruttura nazionale dei dati di ricerca" (NFDI), l’istituzione del gruppo di lavoro NFDI dell’Unione accademica [NFDI Working Group of the Academic Union | https://www.akademienunion.de/arbeitsgruppen/ehumanities/nfdi-arbeitsgruppe/]] (con particolare attenzione alle scienze umane) o ancora, a partire dal 2016, il progetto interdisciplinare "Generic Research Data Infrastructure" finanziato dal DFG (GeRDI), i progetti HeFDI ("Hessische Forschungsdateninfrastrukturen”; ita. Infrastrutture di ricerca dell’Assia) e il progetto ["eHumanities – interdisziplinär" | https://www.fdm-bayern.org/]] finanziato dal Ministero della Scienza bavarese.

Per le scienze umane, la presunta chiara distinzione tra ricerca e interpretazione di dati o testi come è possibile in alcuni casi isolati validi per le scienze naturali, è estremamente problematica e discutibile. In ogni caso, VerbaAlpina non fa una distinzione in questo senso, ma considera tutti i dati raccolti e generati attraverso il progetto come un insieme inscindibilmente intrecciato le cui singole parti sono collegate tra di loro attraverso diversi legami. Ai sensi della “gestione dei dati di ricerca”, VerbaAlpina dichiara la totalità dei suoi dati digitali distribuiti tra i moduli VA_DB, VA_WEB e VA_MT (ovvero dati linguistici, commenti, voci di glossario, codici informatici e file media ecc.) come dati di ricerca secondo i principi FAIR e si orienta alle raccomandazioni del RfII (RfII 2016, allegato A, p. A-13). VerbaAlpina possiede lo status di progetto pilota ed è coinvolto nei sopraccitati progetti GeRDI e “eHumanities – interdisziplinär”.

Un aspetto essenziale della gestione dei dati della ricerca è la garanzia di interoperabilità, in quanto sono possibili collegamenti permanenti tra parti di progetti o database. In questo senso, anche i cosiddetti DOIs, "Digital Object Identifiers", giocano un ruolo importante. Questi rappresentano il prerequisito tecnico per l'indirizzabilità permanente e indipendente dall'URL degli "oggetti digitali" e possono essere generati per tutti i contenuti elettronici accessibili tramite un URL. In ambito bibliotecario, i DOI sono stati inizialmente utilizzati per l'identificazione persistente di pubblicazioni elettroniche di libri (ad es. https://doi.org/10.5282/ubm/epub.25627) o di interi siti web (ad es. http://dx.doi.org.emedien.ub.uni-muenchen.de/10.5282/asica). A differenza di questa pratica, la necessità di interoperabilità tra dati sviluppati e gestiti separatamente richiede una gestione molto più fine. A questo scopo, VA genera una serie di file accessibili su Internet tramite URL, che contengono il materiale linguistico raccolto, raggruppato per tipologie morfolessicali, concetti, comunità di origine e singoli documenti. I file sono indicati attraverso gli ID delle rispettive categorie di dati assegnati da VA. I file della categoria "Comuni" sono indicati da una "A" all'inizio del nome del file, "C" indica i concetti e "L" invece i tipi morfolessicali. I numeri ID sono assegnati in maniera automatica da VA. L'accesso a questi dati è possibile tramite l'indirizzo Page:EXPORT].


L'assegnazione dei DOI viene effettuata inizialmente nell'ambito del progetto "eHumanities – interdisziplinär" dalla Biblioteca Universitaria della LMU, il quale rileva inoltre i dati nella propria banca dati e al suo interno, attraverso procedimenti ancora da sviluppare e attraverso l’utilizzo di uno schema di meta dati adatto li rende ancora più accessibili.

vedi anche Normdaten.

(auct. Sonja Kümmet [UB der LMU] | Stephan Lücke | Julian Schulz [ITG] | Florian Zacherl – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione



illustrazione quantificata  (Citazione)

[premessa: Il seguente articolo si riferisce in parte ad alcune funzionalità di VA_WEB ancora in via di sviluppo e non accessibili al pubblico.]

La mappa online interattiva di Verba Alpina permette sia la mappatura qualitativa sia la visualizzazione di dati comulativi in un'illustrazione di dati locali. L'accumulazione si orienta sempre a regioni geografiche. Qui l'utente ha la scelta fra l'aggregazione in base al territorio comunale (territorio più circoscritto), le cosiddette regioni- NUTS-3 (territorio di mezzo) e, infine, la regione di distribuzione delle tre grandi famiglie linguistiche germano- romano- slavo (territorio a più ampio raggio). Inoltre esiste la possibilità di definire territori comunali facoltativi come regioni individuali che poi fungano da grandezza di riferimento per il raggruppamento. Questa ultima opzione può evitare effetti forzati che risultino dalla prospettiva dell'aggregazione attraverso superfici amministrative – e così, dal punto di vista linguistico, non concernente la materia- di territori comunali o delle regioni-NUTS-3. Nel caso specifico il procedimento corrispondente può essere ovviamente solo di tipo euristico, l'utente ha però la possibilità di accumulare coerenze regionali sensate, di commentare, riutilizzarle e metterle a disposizione del pubblico.

Riguardo le regioni o superfici selezionate, vengono poi aggregati tutti i dati qualitativi scelti fino all'attivazione della presentazione quantificata. La grandezza e la colorazione di singoli simboli cartografici sono correlate con il numero di ciascun dato singolo qualitativo rilegato in un simbolo. Il valore massimo aritmetico che sta alla base, al raggiungimento del quale un simbolo ottiene la propria massima grandezza e colorazione, corrisponde di serie al numero più alto di dati aggregati che appare in una delle superfici ossia regioni selezionate. Tale valore massimo di referenza può essere convertito nel numero totale dei dati singoli aggregati, operazione che porta a un cambiamento dell'illustrazione cartografica .

In una quantificazione attivata possono essere utilizzati dati qualitativi corrispondenti al calcolo delle quantità attraverso una deattivazione di singoli appunti di lista in una interpretazione cartografica. Inoltre è possibile aggiungerne altri attraverso una ulteriore selezione.

Accanto alla quantificazione sullo sfondo di una carta georeferenziata che mostri il corso di frontiera, VerbaAlpina permette anche la presentazione di dati quantificati su una cosiddetta carta web. L'esempio è una grafica di Wikipedia che visualizza i risultati delle elezioni generali della Gran Bretagna del 2015. In seguito viene mostrata la carta esatta al punto, la lunghezza e l'angolo (in seguito denominata "carta geografica") con i risultati dell'elezione nelle singole circoscrizioni. Segue l'illustrazione della carta web su cui appare ogni circoscrizione tramite un esagono con la sua propria identica grandezza.




fonte: https://upload.wikimedia.org/wikipedia/commons/3/3e/2015UKElectionMap.svg (visitato il 03.11.2016)




fonte: https://upload.wikimedia.org/wikipedia/commons/c/cd/2015_UK_general_election_constituency_map.svg (visitato il 03.11.2016)

Il confronto dei due tipi cartografici evidenzia i vantaggi e gli svantaggi relativi. La carta a nido d'ape contiene inesattezze geografiche o, addirittura, informazioni sbagliate. Così, si riconosce per esempio nel distretto Greater London un favo isolato rosso circondato da tanti favi blu – cosa apparente non riscontrabile nella carta geografica. La carta a nido d'ape ha però il vantaggio di visualizzare meglio le proporzioni numeriche reali tra i singoli colori, in quanto, un grande numero di sezioni elettorali con una misura di superficie molto piccola viene percepito dall'osservazione sulla carta geografica come subordinato, nonostante il valore politico sia allo stesso livello delle sezioni elettorali con una misura di superficie grande. Così i due tipi cartografici si completano a vicenda e il valore aggiunto consiste effettivamente nella possibilità di poter consultare entrambe le carte e di confrontare le loro visualizzazioni.

La carta di fave di VerbaAlpina si distingue per la possibilità di illustrare tutte le comunità politiche del territorio alpino attraverso Hexagone identiche nella loro grandezza . Cosí si cerca di mantenere almeno approssimativamente la logica geografica. Il calcolo della colorazione delle singole Hexagone avviene nello stesso modo come descritto sopra per la carta punto- simbolo. Il vantaggio di una tale carta di fave rispetto ad una semplice colorazione di territori comunali su una carta geografica, consiste nel fatto che effetti suggestivi vengono repressi dalla grandzza die territori comunali che sono molto differenti.


(auct. Stephan Lücke – trad. Monika Hausmann)

Tags: Tecnologia dell'informazione Pagina Web



Modellazione dei dati  (Citazione)

Con il termine modellazione dei dati, VerbaAlpina intende lo sviluppo teorico di una struttura di materiale inizialmente non strutturato. Essenzialmente si tratta della definizione delle cosiddette entità, ovvero una classe di signoli elementi digitali, accomunati da un particolare tipo e un particolare numero di attributi (=caratteristiche). Esclusivamente questi attributi sono rilevanti per la definizione del contenuto e della funzione degli elementi.. Nel corso della modellazione dei dati viene effettuata anche la definizione delle relazioni tra le diverse entità.
La modellazione dei dati deve essere differenziata dalla strutturazione dei dati e dal formato dei dati. La strutturazione dei dati rappresenta l'applicazione concreta del modello teorico a una banca dati come risultato di una rappresentazione strutturata di dati sotto forma di una o più tabelle. Una banca dati strutturata può, a sua volta, essere raffigurata attraverso diversi formati di dati (ad esempio nella forma tabulare = formato di dati relazionale, formato XML e così via). Spesso la trasformazione da uno a un altro formato è possibile.

Si veda anche il modello relazionale

(auct. Stephan Lücke – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione



Moduli  (Citazione)

v. Controllo versione

Tags: Tecnologia dell'informazione



Principi FAIR  (Citazione)

Nel 2016, un grande numero di scienziati provenienti da diversi Paesi ha pubblicato sulla rivista Nature un articolo sulla formulazione di linee guida per la gestione dei dati di ricerca (Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: 10.1038/dati.2016.18 (2016). ?). Le idee presentate in questa pubblicazione si riferiscono a un workshop svoltosi nel gennaio 2014 presso il Lorentz Center dell'Università di Leiden nei Paesi Bassi. Il titolo del workshop era: Jointly designing a data FAIRPORT

Nel frattempo, le idee riassunte nell'acronimo FAIR si sono affermate come punto di orientamento nell'attuale dibattito sul corretto trattamento dei dati di ricerca. Questa tendenza è emersa chiaramente durante l'incontro del progetto GeRDI di ottobre 2018; cfr. anche FAIRGROUP della Community FORCE11).

L'acronimo FAIR riassume quattro postulati centrali, in parte interdipendenti, su cui dovrebbero basarsi il trattamento dei dati di ricerca (?):

  • F — Findable
  • A — Accessible
  • I — Interoperable
  • R — Reusable

Queste quattro parole centrali comportano implicitamente una serie di conseguenze per la gestione dei dati digitali di ricerca.

Affinché i dati siano ritrovabili, dovrebbe esistere almeno un portale centrale attraverso il quale è possibile far partire la ricerca. Sarebbe utile incorporare la documentazione dei dati di ricerca all'interno dei cataloghi delle biblioteche già creati da lungo tempo (si tratta essenzialmente del loro contenuto e del loro luogo di conservazione). I concetti che implicherebbero una ricerca in luoghi diversi sarebbero invece da evitare.

Per essere trovati, i dati devono essere fisicamente esistenti. Non si tratta tanto di una questione di realizzazione tecnica, che può essere realizzata ad esempio dai centri informatici esistenti, quanto piuttosto di una responsabilità istituzionale. Le biblioteche che, per la loro storia, il loro ruolo di custodi del sapere così come per la loro prospettiva di conservazione a lungo termine, possono essere considerate candidati ineguagliabili a questo compito. Queste dovrebbero assumersi la responsabilità per la conservazione sostenibile dei dati digitali. In quale forma avvenga questo, sia che le biblioteche costituiscano propri repositori oppure che amministrino quelli forniti dai centri informativi, non è di vitale importanza e può essere gestito singolarmente per ogni caso.

Un ruolo di grande importanza, ricoprono invece l'ideazione e l'assegnazione dei metadati attraverso i quali devono essere resi disponibili i dati della ricerca vera e propria. Risulta indispensabile utilizzare almeno uno schema di metadati gerarchicamente strutturato e vincolante che permetta una categorizzazione dei contenuti dei dati di ricerca memorizzati con l'integrazione di vocabolari controllati. Per il momento, VerbaAlpina ha deciso di orientarsi al Datacite-Schema, un sistema ampiamente utilizzato e scelto anche dalla biblioteca universitaria della LMU. L'utilizzo di diversi schemi di metadati concorrenti sarebbe possibile, ma significativo solo se vengono creati in modo coerente per tutti i dati di ricerca raccolti. Gli schemi di metadati specifici subordinati possono rappresentare un'integrazione significativa per gli schemi di metadati di livello superiore.

Il termine "accessible" indica la possibilità di accedere ai dati senza limitazioni di tipo legale come è il Copyright. Questo punto è meno influenzato da coloro che raccolgono o producono i dati. Oltre al diritto d'autore, durante la raccolta dei dati deve essere spesso osservata la protezione dei diritti personali. La domanda di accessibilità punta a garantire che tutti i dati generalmente non soggetti a restrizioni legali, non siano resi protetti da tali restrizioni da parte dei produttori stessi dei dati. Concretamente, ciò significa innanzitutto rinunciare al diritto d'autore e utilizzare un modello di licenza conforme alle condizioni del libero accesso. L'utilizzo delle licenze Creative Commons (CC) è molto diffuso in ambito scientifico, anche se non tutte soddisfano i criteri per il libero accesso. In particolare, il divieto di uso per scopi commerciali, che può far parte di una licenza CC, viola il concetto di libero accesso. Il motivo è che quasi tutti gli usi dei dati possono essere considerati come "uso commerciale" in determinate circostanze, e, dal punto di vista giuridico, è praticamente impossibile tracciare una linea di demarcazione chiara a riguardo (si veda anche l'articolo "Licenze").

Così come la "trovabilità" dei dati, anche l'interoperabilità consiste in due aspetti, uno tecnico e uno teorico-organizzativo. Spesso è necessaria una granulazione logica e libera dei dati al fine di poter collegare con successo gli stock dei dati tra loro e per consentire le relazioni tra gli stessi. In tale contesto, i cosiddetti "Dati standard" ricoprono un ruolo centrale: essi rappresentano categorie concettuali ben definite e, idealmente standardizzate le cui singole istanze (oggetti digitali) sono distinte in relazione a un tipo e a un numero di proprietà chiaramente definite. L'assegnazione di identificatori numerici o alfanumerici ("ID"s) ai singoli oggetti di una categoria concettuale, consente il riferimento univoco agli oggetti. La granualzione degli stock di dati lungo i confini delle categorie e delle loro singole istanze/dei loro singoli oggetti, in combinazione con l'uso di identificatori specifici, consente quindi di collegare insiemi di dati separati con contenuto congruente. Tuttavia, il vero valore aggiunto si ottiene solamente quando è anche tecnicamente possibile fare riferimento direttamente ai singoli oggetti e quindi spostarsi da un database a un altro in un solo click. Questo è possibile solo se a ogni singolo dato ("Granum") viene assegnato un proprio URL. Ai fini della sostenibilità, ad ogni singolo URL deve essere assegnato anche un DOI.

Il riutilizzo degli stock di dati è il risultato finale dell'attenta osservazione e dell'attuazione dei tre postulati precedenti.

VerbaAlpina si impegna a conformare tutte le procedure e i regolamenti relativi ai dati con i principi FAIR. Thomas Krefeld considera questo impegno come la base fondamentale dell'etica nella ricerca all'interno dell'informatica umanistica (Thomas Krefeld [2018]: Linguistische Theorien im Rahmen der digital humanities. Korpus im Text. Version 2 (05.11.2018, 11:35). Absatz 4. url: http://www.kit.gwi.uni-muenchen.de/?p=28010&v=2#p:4.). La cooperazione con la biblioteca universitaria della LMU e con il progetto finanziato dal DFG GeRDI, attualmente realizzato nell'ambito del progetto e-humanities – interdisziplinär, permette la trovabilità dei dati. In particolare, il database centrale del Modulo VA_DB è dotato dei metadati di quella versione e trasferito alla biblioteca universitaria della LMU in varie forme, dove è memorizzato nell'Open-Data-Repositorium. I metadati, per lo meno, sono poi incorporati nell'indice attualmente in fase di creazione nell'ambito del progetto GeRDI. L'obiettivo è quello di rendere accessibili i dati raccolti ed elaborati da VerbaAlpina attraverso il catalogo della biblioteca universitaria e anche attraverso il portale di ricerca del progetto GeRDI, ancora in fase di sviluppo. Tutti i dati gestiti da VerbaAlpina saranno, per quanto possibile, inseriti in una licenza Creative Commons in libero accesso (fino alla versione 18/1 CC BY SA 3.0, dalla versione 18/2 CC BY SA 4.0). L'interoperabilità si ottiene da un lato attraverso la granulazione dello stock di dati, che si basa anche sul concetto di norme standard, collegando i dati standard esistenti con il materiale di VerbaAlpina. Questo è possibile, ad esempio, con dati geografici come le unità politiche, che rappresentano il sistema di riferimento geografico centrale di VerbaAlpina. Per le categorie di dati "Tipi morfolessicali" e "concetto", centrali per VerbaAlina, sono esistenti solo in parte, dati standard ai quali i dati VerbaAlpina potrebbero essere correlati. In questi casi, VerbaAlpina si sforza di creare, in collaborazione con istituzioni predestinate come la Biblioteca Nazionale Tedesca (DNB), dati standard o categorie di dati standard corrispondenti. Al fine di soddisfare i requisiti tecnici per un'efficiente interoperabilità, il materiale centrale dei dati lessicali viene memorizzato in un gran numero di piccoli file, ai quali è possibile accedere tramite DOI individuali su Open Data LMU. Inoltre, ad ogni singolo file è allegato un file di metadati in formato Datacite, che nella sua interezza permette di trovare i singoli file attraverso il catalogo della biblioteca.



(auct. Stephan Lücke – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione



Tecnologia  (Citazione)

Per quanto possibile, VerbaAlpina fa uso delle possibilità date dalle tecnologie online. Il nucleo centrale è la piattaforma Wordpress (Modulo VA_WEB) alla quale sono collegate molteplici banche dati MySQL (Modul VA_DB). Wordpress è un framework PHP disponibile gratuitamente, in libero accesso che dispone della possibilità di estensioni individuali. Le sue funzionalità possono essere completate attraverso l'utilizzo di biblioteche Javascript. Quest'ultima possibilità si riferisce soprattutto alla cartina interattiva online, la quale, nella prima versione di VerbaAlpina si serviva della Biblioteca Javascript di Google Maps. A partire dalla versione VA 19_1 è previsto il passaggio al Framework Javascript "Leaflet" in libero accesso, accompagnato dall'implementazione di un layer ad alte prestazioni WebGL per la visualizzazione di grandi quantità di dati.

Per quanto possibile e opportuno, tutte le funzionalità Worpress sviluppate da VerbaAlpina vengono realizzate sottoforma di Plug-in. Questi ultimi vengono successivamente deposti all'interno di "Github", una piattaforma molto conosciuta e riconosciuta fra gli sviluppatori (https://github.com/VerbaAlpina/). Di lì, i plug-in possono essere scaricati e riutilizzati senza limiti. L'utilizzo di plug-in nell'ambito dello sviluppo dei software è permesso grazie all'ormai diffusa Licenza MIT. Su Github, la differenziazione tra PHP e Javascript-Code è artificiale ed è stata inserita nel sistema automaticamente da Github. La maggior parte dei Plug-in sviluppati da VerbaAlpina, oltre a un codice PHP, contengono solitamente parti di codici Javascript. Attualmente (Novembre 2018), sulla pagina di VerbaAlpina su Github sono presenti i seguenti plug-in: "TranscriptionTool-Plugin", "Interactive-Map_Plugin" e "Verba-Alpina-Plugin". Inoltre, vi si può scaricare anche il "Verba-Alpina-Theme", il tema del design dell'interfaccia di VerbaAlpina. È previsto di ampliare l'offerta di Plug-in sviluppati da VerbaAlpina su Github e di metterli a disposizione per il download.

Lista delle estensioni più importanti sviluppate da VerbaAlpina:

  • Carta geografica interattiva online (Visualizzazione a più strati dei dati)
  • Tool di trascrizione (per la trascrizione di dati da atlanti linguistici)
  • Toll di tipizzazione (Categorizzazione di materiale raccolto e assegnazione di tipi)
  • Albero a concetti (Gestione della struttura gerarchica del mondo concettuale)
  • Tool CS (Tool "Crowdsourcing"; Raccolta di dati linguistici via internet per integrare e completare il materiale già a disposizione)
  • SQLtoHTML (Integrazione diretta dei risultati delle richieste SQL nei contributi di Wordpress)

Oltre a questi strumenti complessi, probabilmente utili anche anche per gli utenti esterni a VerbaAlpina, sono state sviluppate in dettaglio numerose funzionalità, la cui trasformazione in plug-in modulari non sembra avere senso, in quanto appaiono troppo piccoli o troppo specifici per le esigenze di VerbaAlpina. Tuttavia, anche questa categoria di sviluppi è accessibile, soprattutto perché il codice completo del software di VerbaAlpina è memorizzato su Github in aggiunta ai plug-in di cui sopra.

Come già accennato, l'interfaccia legata a Wordpress si compone di diverse banche dati MySQL. Il database va_wp si basa su un modello standard di una banca dati MySQL, cosa comune per le installazioni di Wordpress. Attraverso questi database vengono gestite soprattutto le funzionalità "generiche" delle installazioni Wordpress, come ad esempio la gestione degli utenti. La banca dati va_xxx raccoglie invece tutto il materiale scientifico di VerbaAlpina come ad esempio le trascrizioni (Tabella 'tokens'), le tipizzazioni in senso lato ('morph_typen', 'basistypen', 'etyma' e 'lemmata'), concetti ('konzepte'), contributi metodologici ('glossar'), contributi del lessico alpino ('im_comments') oppure anche la bibliografia ('bibliographie'). Il suffisso 'xxx' designa le diverse versione operativa di VerbaAlpina il cui database è soggetto a continui cambiamenti durante il funzionamento. Durante la creazione di una versione di VerbaAlpina, viene creata una copia stabile di questo database il cui nome contiene nel suffisso il relativo numero (ad esempio va_181). Inoltre, per diversi partner di VerbaAlpina esiste una banca dati MySQL. I nomi di questa banca dati indicano come prefisso "pva_" (=Partner Verba Alpina) succeduto dall'abbreviazione del progetto partner in questione (ad esempio pva_ald-i).

I file multimediali (immagini, video, registrazioni audio) raccolti da VerbaAlpina nella mediateca (Modul VA_MT) dell'installazione di Wordpress vengono memorizzati nel file system del server web, come accade di consueto per le installazioni di Wordpress.

Tutte le istanze tecnologiche di VerbaAlpina, ovvero le installazioni wordpress così come le banche dati, utilizzano l'infrastruttura tecnologica del gruppo della tecnologia dell'informazione della LMU. Questa istituzione sviluppa un sistema di gestione informatica professionale con il server web e database ad alta disponibilità e utilizza anche i servizi del centro informatico Leibniz dell'Accademia Bavarese delle Scienze. Il gruppo della tecnologia dell'informazione è composto da sette posti di lavoro fissi garantiti a lungo termine. Una parte del personale si dedica esclusivamente al funzionamento, alla manutenzione e alla cura dell'hardware e dei software dei server.

Tutti gli sviluppi software sono stati realizzati dagli informatici David Englmeier (collaboratore scientifico; a partire da ottobre 2016), Filip Hristov (assistente; a partire da settembre 2016) e Florian Zacherl (collaboratore scientifico; a partire da ottobre 2014).

(auct. Stephan Lücke – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione



Terminologia  (Citazione)

Differenza tra dati grezzi e dati primari.

Dati grezzi: dati dopo il rilevamento dalla "fonte" (ad esempio da partner, via OCR da vocabolari, attraverso trascrizione...)

VA si basa sul modello Stuart Card (infovis-reference-model; reference-model for vizualization).

Di conseguenza, si opera una distinzione tra dati grezzi e dati primari. I dati grezzi sono tutti i dati esistenti in tale forma prima che vengano rilevati elettronicamente all'interno della struttura di VA. Ciò vale anche per il caso in cui i dati da rilevare siano già presenti nella struttura di VA, in quanto anche in questo caso, per il rilevamento è necessaria un'interazione da parte dell'uomo (ad esempio per determinare *che* la struttura è identica).

I dati primari sono definiti come segue: tutti i dati che vengono prelevati attraverso l'API con il parametro "getRecord" (esempio: https://www.verba-alpina.gwi.uni-muenchen.de/?api=1&action=getRecord&id=C1&version=182&format=xml&empty=0) (non ancora completamente implementati). Si differenzia tra dati primari di centrali (=dati linguistici) e dati primari periferici (periferia linguistica come ad esempio dati archeologici).

I metadati sono dati che descrivono i dati primari (per esempio dati amministrativi per la descrizione dell'intero progetto, tutti i testi esplicativi, per esempio nella metodologia [che illustra i diversi aspetti dell'intero progetto] oppure nel Lessico Alpino).

Dati secondari sono tutti i dati che servono all'elaborazione di tutti gli altri dati (Code, Queries ecc. ...)

(auct. David Englmeier | Filip Hristov | Thomas Krefeld | Stephan Lücke | Christina Mutter | Florian Zacherl – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione



Trascrizione  (Citazione)

I materiali linguistici vengono resi in doppia forma grafica per fare fronte a due principi: la fedeltà alle fonti e una facile comparabilità.

(1) Versione input nella trascrizione originale
Nel portale di VerbaAlpina vengono riunite delle fonti che derivano da diverse tradizioni scientifiche (romanistica, germanistica, slavistica) e rappresentano delle fasi storicamente diverse della ricerca dialettologica; alcuni dati lessicografici sono stati rilevati all'inizio del secolo scorso (GPSR) e altri solo pochi anni fa (ALD). Per questo, dal punto di vista storico e epistemologico, è necessario rispettare la trascrizione originale nel miglior modo possibile. Per ragioni tecniche è però impossibile mantenere certe convenzioni in modo invariato. Questo vale soprattutto per le combinazioni verticali di carattere di base ('lettera') e segni diacritici, come per esempio quando un segno per l'accento è posizionato sopra un carattere di lunghezza sopra una vocale sopra un diacritico di chiusura (Codice beta). Queste convenzioni vengono trasferite in sequenze lineari di caratteri secondo trascrizioni tecniche definite in maniera particolare per ogni convenzione utilizzando esclusivamente caratteri ASCII (il cosiddetto codice beta). Utilizzando la codifica beta si può approfittare, almeno in parte, delle somiglianze grafiche intuitivamente comprensibili tra diacritici originali e le corrispondenze ASCII da noi scelte in quanto mnemonicamente vantaggiose.

(2) Versione output in IPA
Pensando alla comparabilità e anche alla facilità d'uso, in una trascrizione unificata, è inoltre auspicabile l'output dei dati. Tutti i codici beta saranno per questo trasferiti in segni IPA attraverso routine di sostituzione specifiche. Alcuni problemi inevitabili nascono per i casi dove a un carattere di base specificato attraverso diacritici nella trascrizione input, corrispondono due caratteri di base diversi in IPA. Questo vale soprattutto per il grado di apertura delle vocali dove per esempio i due caratteri di base <i> e <e>, in combinazione con il punto di chiusura e uno o due uncini di apertura, permettono di rappresentare sei diversi gradi di apertura nella serie palatale; nella codifica beta sono i seguenti: i – i( – i((– e?-- e – e(– e((. Per rendere caratteri, IPA dispone soltanto di quattro caratteri di base: i – ɪ – e – ɛ.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Linguistica Tecnologia dell'informazione



Umanistica digitale  (Citazione)

Il progetto VerbaAlpina è stato pensato fin da principio tenendo presente la sua necessaria conformità al web. Questo perché il progetto vuole contribuire significativamente al trasferimento delle solide tradizioni umanistiche, più precisamente della geolinguistica, nelle cosiddette Digital Humanities (informatica umanistica). Questa espressione è pienamente accreditata, ma i termini che la compongono non risultano auto-esplicativi e meritano, dunque, un'ulteriore osservazione di tipo metodologico.

(1) Digital comporta una serie di complesse implicazioni:

  • La base empirica della ricerca consiste di dati (cfr. Schöch 2013), ovvero unità digitalmente codificate e strutturate, o almeno strutturabili. Spesso si tratta di dati parzialmente già pubblicati e successivamente digitalizzati (come ad esempio i dati di atlanti più antichi); in parte, però, anche di dati da rilevare nell'immediato . Per quanto riguarda i concetti rilevanti, il progetto aspira a raccogliere il più vasto numero di dati possibile. Il metodo è quindi quantitativo e ampiamente induttivo.
  • La comunicazione nella ricerca ha luogo sotto le condizioni mediali dell'internet. Ciò offre in primo luogo la possibilità di intrecciare ipertestualmente media diversi (scrittura, illustrazione, contenuti video e audio); inoltre, i ricercatori, i partner di cooperazione del progetto e/o gli informanti hanno la possibilità di comunicare e cooperare costantemente tra loro.
  • Agli studiosi interessati al progetto si presenta la possibilità di partecipare attivamente allo sviluppo di questa piattaforma scientifica progettuale e collaborativa. Questa prospettiva è utile e produttiva sotto almeno due aspetti: essa permette, infatti, di collegare diverse sedi e – soprattutto – di promuovere la combinazione costruttiva di tecnologia dell'informazione e geografia linguistica con delle risorse pubbliche, senza dover necessariamente ricorrere all'assistenza di imprese private che si occupino di TI (assistenza che, per altro, potrebbe creare complicazioni di natura giuridica ed economica).
  • Il sapere rilevante per il progetto può essere raccolto e modificato continuamente anche a lungo termine, sebbene non si possa dare garanzia di una disponibilità durevole dal punto di vista tecnico (si confronti, a questo proposito, l'infrastruttura scientifica CLARIN-D http://de.clarin.eu/de/home.html, sito fruibile solo in tedesco e inglese). In questa prospettiva, la pubblicazione dei risultati sotto forma di libri, CD, DVD non rappresenta l'obiettivo centrale del progetto. Tuttavia si provvederà ad installare un'opzione di stampa posticipata, come offerta, talvolta, anche dalla lessicografia online Tesoro della Lingua Italiana delle Origini.
(2) Con Humanities si intende una specifica concezione dell'oggetto di ricerca, il quale, se preso in esame esclusivamente secondo la visione filologica tradizionale, non risulterebbe adeguatamente e pienamente analizzato. La tradizione filologica incentrata sul testo è stata difatti sorpassata dalle aree della linguistica che si occupano della lingua parlata. In relazione al progetto VerbaAlpina, tuttavia, il solo parlare di digital linguistics risulterebbe troppo restrittivo in quanto, sebbene al centro della ricerca vi siano i dati linguistici, è chiaro che vengano inclusi anche dati extra-linguistici, indispensabili per la comprensione storica delle relazioni geolinguistiche.

(auct. Thomas Krefeld – trad. Alessia Brancatelli | Susanne Oberholzer)

Tags: Tecnologia dell'informazione



Uniform Resource Name (URN)  (Citazione)

v. Digital Object Identifier

Tags: Tecnologia dell'informazione