Metodologia

Selezione

Mostrare tutti i contributi

(no Tag)   Contesto extralinguistico   Ambiti di funzione   Tecnologia dell'informazione   Linguistica   Pagina Web  


API  (Citazione)

L'acronimo API, dall'inglese "application programming interface", viene utilizzato per indicare l'interfaccia di programmazione di un'applicazione. VerbaAlpina mette a disposizione un'interfaccia di questo genere all'indirizzo https://www.verba-alpina.gwi.uni-muenchen.de/?api=1. Una documentazione dettagliata riguardo alla sintassi da impiegare sull'interfaccia in questione si trova nel seguente articolo: https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=8844. L'API consente di visualizzare, all'interno di un browser, specifici contenuti dalla banca dati di VerbaAlpina (VA_DB) in formati definiti. La selezione dei dati e le modalità di visualizzazione degli stessi sono regolate attraverso parametri URL.

(auct. Stephan Lücke – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione



Archiviazione a lungo termine  (Citazione)

Tutti i dati raccolti dal progetto VerbaAlpina vengono gestiti in modo tale che essi rimangano consultabili ed utilizzabili il più a lungo possibile. La prospettiva temporale entro cui il progetto si muove comprende almeno diversi decenni, sebbene il concetto alla base dello stesso sia, in realtà, orientato ad una conservazione dei dati senza limite temporale.

In particolare, bisogna considerare i seguenti aspetti:
1. Quale o quali istituzioni vengono incaricate della gestione dei supporti informatici, e, rispettivamente, della conservazione dei dati;
2. Documentazione della strutturazione dei dati, così come delle relazioni logiche tra dati e categorie di dati (entità-relazione);
3. Documentazione delle codifiche di carattere impiegate nel processo.

Più copie dei dati del progetto dovranno essere archiviate presso più istituzioni diverse. Tale compito è attualmente affidato all'IT-Gruppe Geisteswissenschaften della LMU (vale a dire il gruppo di tecnologia dell'informazione del dipartimento di Scienze Umane dell'Università di Monaco di Baviera, ITG), legato ai server di archiviazione del Leibniz-Rechenzentrum, così come al BAS Clarin Repository.
Il progetto prevede, inoltre, il deposito di ulteriori copie di backup presso altre istituzioni adatte. L'archiviazione segue il ciclo previsto per il controllo versione. Il database viene archiviato con tutti i dati del progetto (modulo VA_DB, insieme al modello ''entità-relazione''); lo stesso vale per il framework web (VA_WEB), responsabile della presentazione dei dati nel web (inclusa la rispettiva funzionalità): in questo modo è possibile, almeno in teoria, effettuare un "richiamo" di ogni singola versione in rispettivi ambienti di sistema operativo o di software emulati. Soggetta ad archiviazione è, ancora, la mediateca, contenente principalmente foto, film, testi e documenti audio (modulo VA_MT).

Il sito di VerbaAlpina (VA_WEB) viene salvato ad intervalli irregolari nell'archivio internet https://archive.org. All'indirizzo https://web.archive.org/web/*/http://verba-alpina.gwi.uni-muenchen.de/ è possibile recuperare le versioni precedenti di VerbaAlpina. La versione più antiquata ivi inserita risale al 10 novembre del 2014. Le archiviazioni si effettuano, in parte, automaticamente, tramite "Wayback"-Crawler fornito da archive.org, e, in parte, attivamente, tramite VerbaAlpina, che dal 2018 si prefigge una puntuale revisione del sito, da compiersi a scadenze regolari (ogni 6 mesi).

(auct. Stephan Lücke – trad. Susanne Oberholzer)

Tags: Tecnologia dell'informazione



Codepage  (Citazione)

In VerbaAlpina sono riuniti dati provenienti da fonti di carattere diverso: vi sono, infatti, dati ricavati da atlanti linguistici e dizionari cartacei che devono ancora essere digitalizzati, così come dati già esistenti in forma elettronica e messi a disposizione del progetto da alcuni partner di cooperazione. Ognuna di queste fonti utilizza un sistema di trascrizione più o meno individuale. Per attuare una standardizzazione, sono necessarie delle liste in cui si stabilisca quale corrispondenza trovino determinati caratteri, propri di un sistema di trascrizione di una specifica fonte, nel sistema di trascrizione di un'altra fonte. Si tratta essenzialmente di rappresentare i diversi sistemi di trascrizione nell'alfabeto fonetico internazionale (IPA), il quale funge da trascrizione di referenza per VerbaAlpina. Per adattare un sistema di trascrizione specifico di una fonte al sistema IPA, è necessaria la costruzione di una lista completa in forma di tabella contenente tutte le corrispondenze dei caratteri: tale tabella viene chiamata "codepage". Di seguito viene presentato un estratto dalla codepage, basilare per la conversione del sistema di trascrizione dell'AIS in IPA. Questa codepage contiene intorno alle 4500 righe/associazioni in totale:


La colonna 'BETA' contiene i caratteri utilizzati nell'AIS nella forma trascritta secondo il principio del codice beta; la colonna 'IPA' contiene il carattere IPA corrispondente, e la colonna 'HEX' contiene il valore numerico specifico (/i valori numerici specifici) della tabella Unicode che corrisponde(/corrispondono) al rispettivo carattere IPA.

Per una panoramica completa delle codepage di tutte le fonti di VerbaAlpina, si veda qui.

(auct. Stephan Lücke – trad. Susanne Oberholzer)

Tags: Linguistica Tecnologia dell'informazione



Codice beta  (Citazione)

Seguendo la terminologia del Thesaurus Linguae Graecae (TLG), la trascrizione di sistemi di scrittura complessi con l'impiego esclusivo di caratteri ASCII viene denominata, nell'ambito di VerbaAlpina, come "codice beta". Il TLG sviluppò il concetto corrispondente all'inizio degli anni Settanta del Novecento, per il rilevamento di testi in greco antico con i mezzi digitali allora disponibili. La grafica seguente illustra la tecnica in base all'esempio dell'Atlante italo-svizzero (AIS):





Durante il trasferimento della trascrizione fonetica secondo Böhmer-Ascoli, impiegata, nell'atlante linguistico, in sequenze che consistono in caratteri ASCII, viene anzitutto operata una semplice distinzione tra carattere di base e segni diacritici. Se un carattere di base è presente nel codice ASCII, questo segno rappresenterà se stesso (cosa possibile nell'esempio presentato). Subito dopo il carattere di base, seguono tutti i diacritici ad esso correlati: ogni diacritico viene sostituito da uno speciale carattere ASCII. L'attribuzione dei diacritici a caratteri ASCII è univoca all'interno di VerbaAlpina e viene documentata in tabelle speciali nel database del progetto. La scelta dell'attribuzione è guidata, per quanto possibile, dal principio della somiglianza ottica. Nell'esempio menzionato, il punto sotto la e nella parola tega viene, infatti, rappresentato da un punto interrogativo: te?. I diacritici vengono scritti seguendo l'ordine della loro disposizione rispetto al carattere di base: si scrivono nell'ordine dal basso verso l'alto, e da sinistra a destra, dopo il carattere di base. I segni diacritici vengono attribuiti a caratteri ASCII indipendentemente dalla semantica specifica della fonte corrispondente, a causa del principio della somiglianza ottica. Ciò significa che anche se un uncino sotto un carattere di base in una certa fonte presenta un significato fonetico completamente diverso rispetto ad un'altra fonte, in VerbaAlpina entrambi gli uncini verranno rappresentati da una parentesi posposta. Le differenze semantiche vengono documentate nelle tabelle di trascrizione che sono specifiche per ogni fonte: regolano la conversione del codice beta alla trascrizione output secondo IPA (una stessa codifica beta può, dunque, essere presente in codifiche IPA completamente diverse a seconda della fonte).
Il procedimento descritto è vantaggioso da diversi punti di vista:
- il rilevamento dei dati avviene sulle tastiere standard, ad una velocità comparativamente alta ed è indipendente dal sistema operativo;
- chi trascrive non ha bisogno di particolari competenze e conoscenze di sistemi di trascrizione fonetici;
- si può rilevare qualsiasi carattere o diacritico, indipendentemente dal fatto che siano cifrati in Unicode o meno;
- il rilevamento dei dati elettronico avviene senza alcuna perdita d'informazione.
Attraverso la routine di sostituzione, il codice beta può essere trasferito in quasi qualsiasi altro sistema di trascrizione.
Sull'onda di queste conversioni, si può incorrere eventualmente in una perdita d'informazioni, perdita che però è causata dalla natura dei sistemi di trascrizione stessi: la trascrizione fonetica secondo Böhmer-Ascoli, ad esempio, fa una distinzione tra i diversi gradi di apertura in modo molto più dettagliato di quanto sia previsto dal sistema IPA.

(auct. Thomas Krefeld | Stephan Lücke – trad. Susanne Oberholzer)

Tags: Linguistica Tecnologia dell'informazione



Concessione di licenze  (Citazione)

L'utilizzo del copyright, soprattutto in ambito scientifico, comporta il fatto che i contenuti essenziali per la comprensione delle conoscenze basate sugli stessi non possano essere utilizzati da terzi in pubblicazioni scientifiche, o che possano esserlo solo in parte. È, quindi, facile interrogarsi su quali utilizzi siano ancora coperti dal diritto di citazione. Fino a questo momento non è ancora stato chiarito se un autore, le cui opere vogliano essere impiegate nello studio scientifico, perda i diritti in caso di scomparsa avvenuta da più di 70 anni, o se i suoi diritti passino a terzi dopo la sua morte. Ogni autore di pubblicazioni scientifiche, ma non solo, dovrebbe avvertire questa regola come una severa limitazione che, complessivamente, ostacola enormemente il progresso della scienza: il Copyright non è, infatti, un modello adatto per l'attività scientifica.
VerbaAlpina si sente, dunque, in obbligo di mettere a libera disposizione di terzi tutti i contenuti elaborati dallo stesso progetto, in conformità con i cosiddetti principi FAIR e con il pensiero ''open access'', unendosi ad iniziative e facendo parte di istituzioni impegnate nella diffusione e nell'attuazione di questo ideale (si veda, ad esempio, l'Open Science Center della LMU). Il progetto è soggetto a limitazioni nell'utilizzo del materiale solo nel caso in cui i dati acquisiti da pagine terze siano coperti da condizioni di utilizzo restrittive, come, appunto, il Copyright: in questo caso, infatti, anche VerbaAlpina deve rispettare e sottostare alle condizioni di utilizzo originarie dei dati in questione; singoli file media presenti in VA-Modul e VA_MT, che VerbaAlpina ha ricevuto da fonti esterne, sono, ad esempio, coperti da Copyright. Gli elementi interessati da questa particolare condizione di utilizzo vengono segnalati individualmente con degli specifici simboli. VerbaAlpina si impegna costantemente ad indicare le condizioni di utilizzo vigenti per ogni contenuto, a meno che queste non si trovino nel quadro di una licenza open-access. Nel caso di violazioni da parte del progetto – soprattutto per quanto riguarda le violazioni del diritto d'autore – si chiede di darne immediata segnalazione, in modo tale da rimediare, provvedendo ad eliminare i contenuti interessati dall'infrazione.

Tutti i dati e i contenuti liberamente accessibili ed utilizzabili dal punto di vista giuridico e ai sensi dell’open-access vengono sottoposti, da parte di VerbaAlpina, alla licenza Crative-Commons (CC). Secondo questa licenza, per l'utilizzo e la diffusione dei dati, è necessaria solamente l'indicazione dell'autore e la loro diffusione nel rispetto delle condizioni originarie. Queste ultime vengono indicate nella nomenclatura dei CC attraverso le abbreviazioni ''BY'' e ''SA'' (''share alike''). VerbaAlpina rinuncia coscientemente al divieto di utilizzo commerciale (abbreviazione CC ''NC'' – ''non-commercial''), in quanto questo potrebbe rendere impossibile un riutilizzo dei dati per scopi scientifici (si veda l'intervento "Offene Lizenzen – ein Werkstattbericht zu den rechtlichen Herausforderungen im Jahr 2015 " [dal minuto 13, ca.] di Thomas Harmann). In tal senso, la clausola ''NC'' non è compatibile con il pensiero open-access (vedi https://open-access.net/informationen-zu-open-access/rechtsfragen/lizenzen/, paragrafo "Das Creative Commons-Modell", consultato il 09/10/2018).

Mentre le licenze CC della versione 3.0 erano state adattate al sistema giuridico tedesco, l'attuale versione 4.0 (2018) rinuncia a questo adeguamento, ed è difficile ipotizzare quali possano essere le relative conseguenze per il progetto di VerbaAlpina. Il portale https://open-access.net/, gestito dalla Biblioteca Nazionale e Universitaria della Bassa Sassonia, con sede a Göttingen, spiega: “Attualmente non è ancora chiaro quali siano le conseguenze della traduzione delle licenze standard in una lingua straniera sconosciuta al fruitore della licenza stessa” (https://open-access.net/informationen-zu-open-access/rechtsfragen/lizenzen/, consultato il 09.10.2018). Per questo motivo, VerbaAlpina segue la pratica corrente della Biblioteca Universitaria della LMU e, a partire dalla versione 18/2 (dicembre 2018), mette a disposizione tutti i contenuti non rientranti nelle eccezioni sopracitate con una licenza CC BY-SA 4.0. (https://creativecommons.org/licenses/by-sa/4.0/). Alle älteren Versionen stehen in analogem Sinn unter der CC-Lizenz BY-SA 3.0 de (http://creativecommons.org/licenses/by-sa/3.0/de/). Allo stesso modo, tutte le versioni meno recenti sono coperte anch'esse da licenza CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0/de/).

Per il codice software sviluppato da VerbaAlpina, viene applicata la Licenza MIT, molto utilizzata nel campo dello sviluppo dei software. In questo modo, i codici software sono liberamente messi a disposizione per il loro l'utilizzo.

I moduli di VerbaAlpina (VA_DB, VA_WEB e VA_MT) e i dati ivi contenuti sono soggetti alle seguenti licenze Creative Commons:




CC BY-SA 3.0 DE (http://creativecommons.org/licenses/by-sa/3.0/it/; "Attribuzione, StessaLicenza") (dipendente dall'oggetto) rispettivamente




CC BY-NC-SA 3.0 DE (http://creativecommons.org/licenses/by-nc-sa/3.0/it/; "Attribuzione, NonCommerciale, StessaLicenza").

I singoli file nel modulo VA_MT che il progetto di VerbaAlpina ha ricevuto o comprato da fonti di dati esterne possono essere soggetti a Copyright. Gli oggetti nel modulo VA_MT vengono marcati individualmente con segni caratteristici ad essi corrispondenti.

Il sistema di concessione di licenze, così come anche i diritti d'accesso dei diversi gruppi di utenti VA, è documentato dalla seguente grafica:





(auct. Stephan Lücke – trad. Beatrice Colcuc | Susanne Oberholzer)

Tags: Tecnologia dell'informazione Pagina Web



Controllo di autorità  (Citazione)

Il termine CONTROLLO DI AUTORITÀ ha origine nella disciplina della biblioteconomia. Nei cataloghi delle pubblicazioni, è essenziale poter identificarne gli autori senza alcuna ambiguità, al fine di poter assegnare le diverse opere al rispettivo autore, indipendentemente dalle possibili ortografie o dai cambiamenti di nome. La stessa necessità si presenta anche per quanto riguarda gli indici delle opere registrate da ogni biblioteca, per poter, ad esempio, identificare chiaramente termini geografici oggetto di diversi saggi e per poterli mettere in relazione tra loro. Queste necessità hanno portato alla creazione di corrispondenti liste onomasiologiche, le quali, in un primo momento, sono state gestite localmente dalle singole biblioteche.

La possibilità di collegare a livello tecnico i contenuti delle banche dati in rete risale agli anni Settanta. Questa operazione necessitava, però, allora, di un adattamento dei singoli elenchi gestiti fino a quel momento individualmente dalle biblioteche. A tal fine, a partire dagli anni Ottanta (le prime progettazioni risalgono, in ogni caso, agli anni Settanta), le singole biblioteche iniziarono ad adattare le proprie liste e a creare elenchi comuni di persone e di parole chiave, per ottenere una certa omogeneità tra biblioteche. Nel corso del tempo, sono stati creati elenchi tematici separati: un indice di persone (Personennamendatei, PND), un indice di organismi (Körperschaftsdatei, GKD) e un indice di parole chiave (Schlagwortnormdatei, SWD). Tuttavia, si è reso evidente come la separazione tematica fosse poco utile, soprattutto perché sia gli individui che gli organismi possono figurare non solo come autori o redattori, ma possono essere anche l'oggetto stesso delle pubblicazioni: per questo motivo, essi devono essere presi in considerazione anche nella creazione degli indici per le parole chiave. Tra il 2009 e il 2012, allora, i tre indici separati sono stati riuniti attraverso un'operazione effettuata dalla Biblioteca Nazionale Tedesca e dalle associazioni bibliotecarie di lingua tedesca, formando il cosiddetto ''Common Standards File'' (GND). A partire dal 2012, questo file è disponibile al pubblico in diversi formati (MARC 21 Authority, MARC21-xml und RDFxml) ed è sempre più utilizzato nella creazione di indici anche al di fuori del sistema bibliotecario. Così, il controllo di autorità è registrato anche nei progetti digital humanities dell’ITG (Gruppo Tecnologia dell'Informazione delle Scienze Umane) BMLO (Bayerisches Musiker-Lexikon online) e Kaiserhof, e viene utilizzato per l'identificazione univoca delle persone.

All'indirizzo http://ognd.bsz-bw.de/ del Servizio Bibliotecario del Baden-Württemberg viene messo a disposizione un utile strumento per la ricerca all'interno del GND. I file conformi al GND sono gestiti da istituzioni, soprattutto da biblioteche situate in tutto il mondo. Il progetto VIAF (Virtual International Authority File), avviato congiuntamente da DNB e dalla Library of Congress, esiste dal 2003 ed ha come obiettivo quello di riunire le banche dati in un unico sistema, per renderle disponibili al pubblico.

Anche se il sistema del controllo di autorità consente, teoricamente, l'identificazione univoca di persone e concetti, la concreta fruibilità dello stesso dipende dalla sua attuazione tecnica all'interno dei cataloghi elettronici delle biblioteche. Ad esempio, nei cataloghi della DNB e della Bayerische Staatsbibliothek (BSB), la ricerca del termine “Homère” dà risultati contenenti solamente l'ortografia tedesca “Homer”. Attualmente (nov. 2018), però, attraverso un click sul nome dell'autore, è possibile accedere all'elenco dei titoli relativi non solo al singolo individuo in questione, ma anche ad autori che portano lo stesso nome.

Nonostante il concetto di controllo di autorità sia da ricondurre all'ambiente della biblioteconomia, nel corso del tempo esso si è esteso anche ad altri settori. A titolo esemplificativo, si possono nominare i seguenti progetti: Geonames (Entità Geographica), Pleiades (Entità antica Geographica), o Glottolog (Entità lingue del mondo).

Tra l'altro, il controllo di autorità è molto importante per l'interoperabilità richiesta dall'iniziativa FAIR. Oltre a creare un indice dei contenuti dei cataloghi bibliotecari, attraverso la definizione di un controllo e l'assegnazione di un identificatore alfanumerico, è possibile collegare in maniera logica e tecnica i dati presenti in banche dati separate.

Dal punto di vista metodologico, VerbaAlpina auspicherebbe la creazione di un controllo di autorità per le categorie "tipo morfo-lessicale" (⇒ tipizzazione) e "concetto". Questo permetterebbe di contrassegnare ciascuna di esse con uno specifico identificatore. In questo modo, i dati lessicali potrebbero essere collegati tra di loro in tutto il mondo e, nel caso dei concetti, il collegamento si effettuerebbe indipendentemente dalla singola lingua. Tuttavia, ad oggi, approcci di questo genere si osservano solo occasionalmente. Nei database strutturati del progetto Wikidata, ad esempio, vengono assegnati i cosiddetti ''Q-ID'' che identificano in modo univoco concetti non linguistici, fornendo, così, un riferimento comune e identico per i diversi articoli, nelle diverse versioni linguistiche di Wikipedia su uno stesso argomento: il concetto ALMHÜTTE è identificato in Wikidata con il Q-ID Q2649726; questa voce in Wikidata si riferisce agli articoli di Wikipedia assegnati, ad oggi, per un totale di sette lingue diverse (ottobre 2018). Dei 2629 concetti attualmente registrati da VerbaAlpina (ottobre 2018), esattamente 400 sono stati finora contrassegnati da un Q-ID. Qualora disponibili, i Q-ID vengono registrati nel database del progetto, ma un'identificazione sistematica, analoga a quella operata in Wikipedia e Wikidata, però, sembra non esistere ancora. Le L-ID per le denominazioni delle lingue sono state assegnate solo in maniera grossolana e non è chiaro se si intendano creare dei tipi definiti in modo più preciso.

Sulla base del modello degli ID del controllo di autorità, VerbaAlpina assegna i propri identificatori per le categorie di dati (entità) "concetto", "tipo morfolessicale" (vedi Tipizzazione) e "comune", che possono essere collegati ad altri sistemi di controllo di autorità già stabiliti come i Q-ID del progetto Wikidata attraverso una semplice mappatura. VerbaAlpina si sta, inoltre, impegnando nell'inclusione della categoria di dati "tipo morfolessicale" nel sistema Common Standards File (GND). La prospettiva esiste, soprattutto perché il GND deve essere ampliato in termini di contenuto e struttura, ed adattato alle esigenze della scienza, delle istituzioni culturali generali e degli individui. La conferenza GNDCon 2018 prevista per dicembre 2018 è destinata a fungere da momento di discussione proprio a questo scopo. I membri della Biblioteca Universitaria di Monaco e dell'ITG porteranno avanti in questa sede gli interessi di VerbaAlpina.

La GND distingue attualmente le seguenti entità: Organismo (Sigla: b), Conferenza (f), Geografia (g), Persona (non individualizzata) (n), Person (individualizzata) (p), Concetto (s) e Opera (u) (http://www.dnb.de/SharedDocs/Downloads/DE/DNB/standardisierung/inhaltserschliessung/entitaetenSatztypen.pdf?__blob=publicationFile). Un documento DNB della categoria "Working aids for the common standards file (GND)" afferma inoltre che per la categoria "lettere, morfemi, parole come oggetto di indagine linguistica", il codice specifico dell'entità "slz" è inteso come sottocategoria dell'entità "nozione". È ovvio, allora, pensare che i dati di VerbaAlpina dovranno essere collegati a questa categoria.

Letteratura:
Capellaro 2003

(auct. Stephan Lücke – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione



Controllo versione  (Citazione)

VerbaAlpina è articolato nei seguenti moduli:

-VA_DB: file di dati nel database del progetto (MySQL) (va_xxx);
-VA_WEB: codice di programma dell'interfaccia web del portale www.verba-alpina.gwi.uni-muenchen.de insieme al database Wordpress (va_wp), appartenente al progetto;
-VA_MT: file media (foto, film, testi e documenti audio) che si trovano nella mediateca dell'interfaccia web.

Tutti e tre i moduli formano una corposa unità, all'interno della quale sono presenti connessioni e relative interdipendenze: essi non possono, quindi, essere separati l'uno dall'altro. Durante la durata del progetto, lo stato attuale dei moduli VA_DB e VA_WEB viene "congelato" ogni sei mesi (il 15 giugno e il 15 dicembre di ciascun anno), in modo simultaneo sotto forma di copia elettronica. A queste copie ''congelate'' vengono attribuiti dei numeri di versione secondo lo schema [anno civile]/[numero di serie] (per esempio: 15/1). Alla versione VA ''produttiva'' è, invece, attribuita la denominazione XXX (cfr. modo di citare).

La produzione di copie della mediateca VA (VA_MT) non è possibile a causa delle grandi dimensioni dei file media. Per questa ragione, non si fanno delle copie di questo modulo nel processo di controllo versione. Una volta deposti nella mediateca VA, gli elementi inseriti non possono più essere eliminati, se ad essi è connessa una versione VA.

Nel portale del progetto esiste la possibilità di passare da una versione all'altra: l'utente ha, infatti, la possibilità di passare dalla versione "produttiva", in costante lavorazione, alle versioni archiviate o "congelate". La cromaticità dello sfondo e quella di alcuni elementi di comando indicheranno all'utente se esso si trovi nella versione produttiva o in una delle versioni archiviate di VA.
Nel caso di citazione, è bene sottolineare che *solo* le versioni archiviate di VA possono essere citate.

Frontespizi di versioni precedenti di VerbaAlpina:

Fienile nei pressi di Fex Platta, nella val Fex vicino a Sils Maria, Alta Engadina (Immagine: Thomas Krefeld)

Cascina sulla Roßsteinalm, sopra Lenggries (Immagine: Thomas Krefeld)

15/1

Autunno in Sudtirolo nei pressi della val Passiria (Immagine: Susanne Oberholzer)

15/2

Lavorazione del mascherpa, Lombardia (Immagine: Formaggio Bitto )

16/1

Alpsee, Immenstadt nell'Allgäu (Immagine: Christina Mutter)

16/2

Raccolta del fieno nel Chiemgau (Immagine: archivio Groth-Schmachtenberger, Freilichtmuseum Glentleiten)

17/1

Raccolta del fieno (Immagine: archivio Groth-Schmachtenberger, Freilichtmuseum Glentleiten)

17/2

Raccolta del fieno (Immagine: archivio Groth-Schmachtenberger, Freilichtmuseum Glentleiten)

18/1

Panorama invernale sulla Plose sopra Bressanone (I)(Immagine: Stephan Lücke)

18/2

Vista sulle Odle attraverso l'Alpe di Siusi (Immagine: Stephan Lücke)

19/1

Alpi della Zillertal (Immagine: Thomas Krefeld)

19/2



(auct. Stephan Lücke – trad. Susanne Oberholzer)

Tags: Tecnologia dell'informazione



Descrizione di concetto  (Citazione)

I concetti vengono rilevati nella tabella KONZEPTE del database nel seguente modo: nel caso in cui esista una denominazione lessicalizzata di un concetto, questa denominazione viene iscritta nella casella di database ''Name_I'' (denominazione italiana). Quando la lessicalizzazione manca, la casella rimane vuota. Indipendentemente dall'esistenza di una denominazione, viene specificato o definito il concetto nella casella ''Beschreibung_I'' (descrizione italiana). Questo avviene seguendo un modo di procedere ben definito ed illustrato dall'esempio del concetto ''BRENTINA'' (ID_Konzept 137; identificatore del concetto nel database): il concetto menzionato viene denominato con un lessema specifico, per questo viene iscritto ''brentina'' in ''Name_I''. La descrizione prevede l'ordine gerarchico seguente: attrezzo, scopo, materiale, forma (eventualmente). Applicato al concetto dell'esempio, ne risulta la descrizione seguente: RECIPIENTE, PER IL TRASPORTO DEL LATTE SULLE SPALLE, IN LEGNO. Ove possibile/necessario dovranno, inoltre, essere osservate queste regole: i numeri 1-10 vengono scritti in lettere; nella descrizione di un processo, di un'attività ecc. è utilizzata la costruzione ''per+infinito'' oppure ''per+articolo+sostantivo''. Osservando questo modello sono rese possibili delle traduzioni analoghe, la formazione di categorie indipendenti da lingue particolari a diversi livelli di astrazione (->RECIPIENTI ->RECIPIENTI PER IL TRASPORTO ->RECIPIENTI DI LEGNO ecc.), correzioni automatizzate o modifiche, così come anche una ricerca trasparente. Tutti i concetti vengono rilevati secondo questo modo di procedere nella lingua tedesca, italiana, francese, slovena e romancia.

(auct. Giorgia Grimaldi | Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Tecnologia dell'informazione



Digital Object Identifier (DOI)  (Citazione)

Il Digital Object Identifier (DOI) è un indirizzo universalmente univoco ed invariabile attraverso il quale le risorse elettroniche, come, per esempio, i siti web, possono essere raggiunte. Il suo impiego rende sostanzialmente possibile citare in modo duraturo le diverse risorse elettroniche. Questa accessibilità è garantita anche nei casi in cui, ad esempio, il cosiddetto "Uniform Resource Locator" (URL) di una risorsa venga modificato, e ciò è reso possibile da un semplice processo di mapping: la fondazione DOI tiene, infatti, un registro in cui l'URL attuale di una risorsa è associata ad ogni DOI. Nel momento in cui un URL cambia, cambia anche la corrispettiva entrata nel registro della fondazione. A tal fine, però, questi cambiamenti devono essere comunicati alla fondazione DOI dalle organizzazioni associate (dalle biblioteche, ad esempio), le quali hanno precedentemente fatto registrare i DOI in questione. La registrazione di VerbaAlpina nel registro della fondazione ha luogo attraverso il "Referat Elektronisches Publizieren" della biblioteca universitaria della LMU, centro il quale, tuttavia, si occupa della registrazione non presso la fondazione DOI, bensì presso il DataCite, membro facente parte della fondazione.

Fondamentale premessa per il corretto funzionamento del concetto DOI, oltre ad un consono trattamento da parte dell'operatore di dominio, è l'affidabilità dell'istituzione responsabile del mantenimento delle tabelle di assegnazione, ossia la stessa agenzia di registrazione DOI. Questa dovrebbe, infatti, svilupparsi in un'ottica di esistenza a tempo indeterminato, proprio come avviene nel caso delle biblioteche d'ateneo, di quelle statali e di quelle nazionali. Ad ogni modo, come detto, l'operatore di dominio dovrebbe segnalare qualsiasi modifica dell'indirizzo di un oggetto digitale all'agenzia di registrazione, in modo da potere, allo stesso modo, adattare le voci corrispondenti nel registro DOI. Non è, però, da escludere un tipo di revisione con scadenza periodica effettuata dalle agenzie di registrazione DOI, una sorta di controllo paragonabile alle "revisioni" tradizionalmente operate nelle biblioteche.

Il DOI di VerbaAlpina è il seguente: doi:10.5282/verba-alpina; il numero che precede la barretta obliqua (10.5282) è il prefisso, mentre la stringa successiva è il suffisso. Il prefisso è assegnato all'organizzazione che ha effettuato la registrazione, in questo caso, dunque, alla biblioteca universitaria della LMU. Affinché una citazione in un testo scientifico porti direttamente al portale di VerbaAlpina, il DOI deve essere inserito nell'URL della fondazione DOI: http://dx.doi.org/10.5282/verba-alpina.

Anche il cosiddetto Uniform Resource Name (URN) svolge la stessa funzione del Digital Object Identifier, e persino le modalità di funzionamento sono grossomodo le stesse. Diversamente rispetto al DOI, però, l'URN permette la registrazione di più URL per una stessa risorsa. Tale opzione può essere interessante se le risorse vengono deposte da server differenti con corrispondenti URL diversi, al fine di assicurare loro una maggiore salvaguardia e conservazione, nel caso di inconvenienti tecnici, o di assicurarne, più in generale, una duratura permanenza online. Un certo svantaggio dell'URN rispetto al DOI consiste nel fatto che il registro URN non venga gestito da un'unica istituzione, bensì da diverse organizzazioni nazionali decentralizzate. In Germania, ad esempio, è la Deutsche Nationalbibliothek (DNB) ad aver assunto questo compito. Per questo motivo, per le risorse registrate attraverso quest'ultima, bisogna accedere al server della DNB che gestisce gli URN, il cosidetto resolver. L'URN di VerbaAlpina è: urn:nbn:de:bvb:19-verba-alpina-8; l'URL corrispondente al resolver DNB (che conduce, poi, al portale di VA) è: http://nbn-resolving.de/urn:nbn:de:bvb:19-verba-alpina-8. Come anche per il DOI, non è possibile accedere direttamente a risorse parziali specifiche sul portale di VerbaAlpina attraverso l'URN.

Fondamentalmente, è possibile registrare DOI e URN anche per risorse parziali di un dominio (ad esempio singole pagine web o file media). In alternativa, queste possono essere raggiunte attraverso l'inserimento dei parametri URL nel DOI. Per far ciò, è necessaria una sintassi particolare, illustrata sulla base del seguente esempio: il DOI che si riferisce alla URL dell'articolo Management dei dati di ricerca (https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=493&db=xxx&letter=F#112 ) si presenta nel seguente modo:

http://dx.doi.org/10.5282/verba-alpina?urlappend=/%3fpage_id=493%26db=xxx%26letter=F#112

L'esempio mostra che i punti di domanda e le cosiddette ''e commerciali'' (&) devono essere sostituiti attraverso il relativo valore esadecimale del tratto nella tabella unicode: ? = 3f ; & = 26).

Fonte: Dreyer 2012

(auct. Stephan Lücke | Julian Schulz [ITG] – trad. Beatrice Colcuc | Susanne Oberholzer)

Tags: Tecnologia dell'informazione



Digitalizzazione  (Citazione)

Con il termine digitalizzazione non si intende, nell'ambito di ricerca di VerbaAlpina, il semplice impiego dei computer per la memorizzazione di dati elettronici, bensì un'articolata elaborazione digitale del materiale attraverso dei processi di *strutturazione* e categorizzazione sistematici e trasparenti.



Nel progetto, si utilizza quasi esclusivamente il modello relazionale in cui i dati vengono organizzati da principio in forma di tabella. Le tabelle consistono di griglie composte da righe (= record, tupla) e colonne (= attributi, caselle, campi dato); ogni tabella può essere ampliata in ogni direzione aggiungendo ulteriori righe e colonne. Tra le diverse tabelle esistono relazioni logiche che permettono concatenamenti sensati e le relative raffigurazioni sinottiche di due o più tabelle (i cosiddetti "joins"). Per la coordinazione delle tabelle, VerbaAlpina impiega attualmente il sistema di gestione di banca-dati MySQL. Le tabelle non sono, tuttavia, vincolate a questo sistema e possono essere esportate in qualsiasi momento, ad esempio sotto forma di testo con delimitatori univocamente definibili per limiti di casella, oppure di record (i cosiddetti separatori), insieme ai nomi di colonna e alla documentazione delle relazioni logiche (modello entità-relazione). Nel campo operativo di VerbaAlpina non viene, invece, impiegata la struttura XML, al momento molto spesso utilizzata in altri ambiti. In ogni caso, il linguaggio XML è compreso come formato di esportazione nell'ambito del concetto di interfaccia.

Oltre alla strutturazione logica dei dati, il secondo fondamentale concetto inerente alla "digitalizzazione" riguarda la codifica dei caratteri. Questa tematica è molto importante se si pensa in termini di archiviazione a lungo termine dei dati, e, in quanto tale, deve essere gestita in modo lungimirante. In tal senso, VerbaAlpina fa, per quanto possibile, riferimento alla tabella di codifica e alle direttive del cosiddetto Unicode Consortium. Nel caso della digitalizzazione di caratteri finora non rientrati nella tabella Unicode, il rilevamento digitale degli stessi è effettuato, di norma, attraverso la disposizione secondo un ordine seriale dei caratteri dell'intervallo x21 fino x7E di Unicode (all'interno del repertorio ASCII). Le associazioni corrispondenti vengono documentate in tabelle speciali, per cui una successiva conversione in valori Unicode possibilmente esistenti è sempre possibile.

(auct. Stephan Lücke – trad. Susanne Oberholzer)

Tags: Linguistica Tecnologia dell'informazione



Entità-relazione  (Citazione)

In linea di massima, i dati possono essere riuniti in cosiddette "entità". Si tratta di classi di dati che presentano una certa natura e un certo numero di caratteristiche specifiche. Così, le città di Trento, Innsbruck e Lucerna possono, ad esempio, formare la classe "luoghi" alla quale appartengono le caratteristiche: "nome di luogo", "grado di longitudine", "grado di latitudine", "Stato" e "numero di abitanti". I singoli membri di una tale classe si distinguono tra di loro per i diversi valori delle caratteristiche che formano la stessa.

In una banca dati relazionale, ciascuna entità viene idealmente salvata in una tabella separata. Le colonne di queste tabelle separate comprendono i valori di una caratteristica specifica. Le righe comprendono i membri individuali della classe dei dati (entità), tali membri si distinguono tra di loro per i valori della caratteristica. In quasi tutti i casi – così come anche in VerbaAlpina – una banca dati relazionale rappresenta una raccolta di entità diverse (e, con questo, tabelle diverse) tra le quali esistono delle relazioni logiche. Così, l'entità "informante", definita attraverso le caratteristiche "età", "sesso", "luogo di nascita" e "luogo di residenza", è legata all'entità "luoghi" in maniera logica, cosicché i valori della caratteristica "luogo di nascita" e "luogo di residenza" hanno delle corrispondenze nell'entità "luoghi". Le relazioni tra i membri di queste due entità nascono dalla corrispondenza del valore di una o più caratteristiche (congruenti nella loro natura) della rispettiva entità. Teoricamente, in questo caso potrebbe risultare un'associazione tra valori identici delle caratteristiche "luogo di nascita" e "nome di luogo", attraverso la quale si possono assegnare – tramite un informante – le coordinate geografiche del suo luogo di nascita. È ovvio che in questo caso si possano presentare dei problemi dovuti a questioni di omonimia. Per evitare problemi di questo genere è consuetudine utilizzare numeri interi come identificatori (abbreviazione: "ID"), in modo da definire univocamente i membri di un'entità.

Il sistema delle entità e delle loro relazioni logiche poc'anzi descritto viene definito "entità-relazione". I dati raccolti in una banca dati relazionale sono difficilmente intellegibili ed utilizzabili senza una spiegazione delle dipendenze che vi sono comprese. L'entità-relazione viene rappresentata normalmente sotto forma di uno schema grafico.

L'entità-relazione è soggetta ad adattamenti continui e, dunque, a cambiamenti durante le fasi di sviluppo cicliche di VerbaAlpina (v. controllo versione). Ad ogni versione del progetto archiviata viene aggiunto il modello entità-relazione della versione della banca dati che ne è alla base sotto forma di un diagramma ER, creato con il programma yEd e salvato come documento GraphML- e PDF. I diagrammi creati utilizzando strumenti automatici non sono successivamente modificati graficamente, in quanto tale operazione necessiterebbe di una mole di lavoro a dir poco considerevole. Per questo motivo e a causa della grande complessità delle strutture rappresentate, i diagrammi non sono, in linea generale, immediatamente comprensibili alle persone esterne al progetto. Allo stesso tempo, essi contengono tutte le informazioni necessarie per comprendere la struttura della banca dati di VA (VA_DB) e rappresentano, quindi, una condizione importante per poter utilizzare la banca dati anche successivamente alla fine del progetto.

La seguente grafica si basa sulle entità e sulle relazioni del database VA_XXX nel suo stato attuale (20.3.2015); essa non ha, tuttavia, la pretesa di costituirsi come rappresentazione completa ed è da intendersi solo come esempio illustrativo:





(auct. Stephan Lücke – trad. Beatrice Colcuc | Susanne Oberholzer)

Tags: Tecnologia dell'informazione



Formato dei dati  (Citazione)

Si veda Modellazione dei dati.

Tags: Tecnologia dell'informazione



Georeferenziazione  (Citazione)

La georeferenziazione è un criterio di ordine essenziale per la gestione dei dati di VerbaAlpina. Essa utilizza gradi di latitudine e di longitudine e l'esattezza di questa referenziazione varia a seconda del tipo di dati raccolti. Il progetto aspira, però, a raggiungere una referenziazione più precisa ed esatta possibile. Di norma, nel caso di dati linguistici provenienti da atlanti e dizionari, è possibile solo una referenziazione approssimativa in base al toponimo in questione; nel caso di dati archeologici, invece, sono possibili delle georeferenziazioni, precise ''al metro''. Possono essere salvati punti, linee (come strade, fiumi ecc.) e superfici. Dal punto di vista tecnico viene utilizzato soprattutto il cosiddetto formato WKT (https://en.wikipedia.org/wiki/Well-known_text) che viene trasferito nel database di VerbaAlpina in un formato MySQL specifico, attraverso la funzione geomfromtext() (https://dev.mysql.com/doc/refman/5.7/en/gis-wkt-functions.html. L'output nel formato WKT avviene attraverso la funzione MySQL astext().

La griglia di riferimento della georeferenziazione forma la rete dei comuni politici presenti nello spazio alpino, la quale può essere rappresentata o sotto forma di ''superficie'' o attraverso dei punti, a seconda delle esigenze. Alla base di questa rete vi sono le demarcazioni di confine comunale che VerbaAlpina ha ricevuto dalla Convenzione delle Alpi, nostro partner di collaborazione; tali dati sono aggiornati al 2014 ca. Un costante aggiornamento di questi ultimi, spesso modificatisi nel tempo a causa di diverse riforme amministrative, risulta superfluo poiché, dal punto di vista di VerbaAlpina, si tratta di un quadro di referenza puramente geografico. La raffigurazione dei punti nella griglia di riferimento dei comuni viene dedotta attraverso degli algoritmi relativi ai confini degli stessi, e risulta essere, quindi, secondaria. I punti di georeferenziazione comunale calcolati rappresentano i centri geometrici delle superfici comunali e solo per caso marcano il capoluogo o il punto al centro dei diversi comuni. Se necessario, tutti i dati possono essere proiettati singolarmente o cumulativamente su un punto di georeferenziazione comunale: questo è, ad esempio, il caso dei dati linguistici di atlanti e dizionari.

Oltre alla griglia di riferimento dei confini comunali esattamente georeferenziata a partire dalla Versione 16/1, il territorio preso in considerazione da VerbaAlpina viene rappresentato attraverso una griglia a nido d’ape, similmente georeferenziata, che grosso modo mostra sì la localizzazione dei comuni, ma che, allo stesso tempo, visualizza ognuno di questi attraverso una forma idealizzata uguale nella forma e nella sua estensione. [Bild:va_polygone-1.jpg]] Vengono, così, messe a disposizione delle diverse tipologie di cartografia, ognuna dei quali ha i propri vantaggi e svantaggi; attraverso le capacità di rappresentazione che possiedono, esse portano in ogni caso con sé un potenziale suggestivo: se, grazie alla sua precisione, la rappresentazione topografica può, ad esempio, mostrare più chiaramente la struttura del territorio attraverso profili paesaggistici particolari, attraverso singole transizioni, corsi vallivi, sbocchi di vallate poco accessibili e così via; la carta a nido d’ape permette, invece, una visualizzazione più astratta dei dati, in quanto livella l’estensione delle superfici comunali e degli agglomerati geopopolati. Quest'ultima funzione è utile soprattutto nel caso delle cartine quantitative, poiché l'estensione delle superfici genera, già a livello percettivo, l'involontaria impressione che esse abbiano un notevole peso quantitativo.

Le informazioni geografiche relative ai diversi punti di rilevazione georeferenziata sono state determinate mediante uno strumento online. A motivo dell'ambiguità e dell'inconoscibilità di alcune denominazioni di piccoli centri, si è resa necessaria una correzione manuale delle informazioni ad essi relative. Sfortunatamente, da qualche tempo a questa parte la determinazione delle geo-coordinate non è più permessa per questioni legali.



(auct. Thomas Krefeld | Stephan Lücke – trad. Alessia Brancatelli | Beatrice Colcuc | Susanne Oberholzer)

Tags: Linguistica Tecnologia dell'informazione Contesto extralinguistico



Gestione dei dati di ricerca  (Citazione)

La sempre più repentina diffusione dei metodi digitali ha fatto emergere la questione del trattamento dei cosiddetti “dati di ricerca”. ###Sembra che le idee ad esso connesse facciano riferimento alle relazioni presenti nelle diverse discipline naturali.#### All'interno di queste ultime, infatti, lo scenario spesso profilato prevede che un'enorme mole di dati venga in primo luogo raccolta e successivamente interpretata in testi esplicativi.### Da quest'idea risulta una chiara suddivisione, nella quale solo i dati di misurazione possono essere considerati come ''dati di ricerca''. È possibile che finora sia stata, o sia ancora, consuetudine considerare i dati di ricerca come poco rilevanti e che, per questo motivo, si sia creduto e si creda che essi non vadano conservati a tempo indeterminato. L'obiettivo della gestione dei dati di ricerca, tuttavia, non è quello di conservare a lungo termine solamente i testi interpretativi, bensì anche i ''dati di ricerca'' alla base della loro interpretazione, oltre che di renderli riutilizzabili.

Il tema della ''gestione dei dati di ricerca'' (FDM) è, ad oggi (2018), fortemente promosso in Germania sia a livello federale che a livello dei singoli Länder, attraverso una serie di progetti di rilievo. Le attività ad esso relative sono state avviate in considerazione della volontà di istituire un cosiddetto European Open Science Cloud (EOSC) a livello europeo. In Germania, il “Rat für Informationsinfrastrukturen" (ita. Consiglio per le infrastrutture dell'informazione scientifica) ha proposto, ad esempio, le seguenti misure a livello interregionale e nazionale: la creazione di un'"Infrastruttura nazionale dei dati di ricerca" (NFDI), l'istituzione del gruppo di lavoro NFDI dell'Unione accademica [NFDI Working Group of the Academic Union | https://www.akademienunion.de/arbeitsgruppen/ehumanities/nfdi-arbeitsgruppe/]] (con particolare attenzione alle scienze umane); e ancora, a partire dal 2016, il progetto interdisciplinare "Generic Research Data Infrastructure" , finanziato dal DFG (GeRDI), i progetti HeFDI ("Hessische Forschungsdateninfrastrukturen”; ita. Infrastrutture di ricerca dell’Assia) ed infine il progetto ["eHumanities – interdisziplinär" | https://www.fdm-bayern.org/]], finanziato dal Ministero della Scienza bavarese.

La presunta chiara distinzione tra ricerca ed interpretazione di dati o testi, resa possibile, in alcuni validi casi isolati, per le scienze naturali, è, invece, estremamente problematica e discutibile nell'ambito delle scienze umane. In ogni caso, VerbaAlpina non opera una distinzione in questo senso, ma considera tutti i dati raccolti e generati attraverso il progetto come un insieme inscindibilmente intrecciato, le cui singole parti sono tra loro collegate attraverso diversi legami. Ai sensi della ''gestione dei dati di ricerca'', VerbaAlpina dichiara la totalità dei suoi dati digitali distribuiti tra i moduli VA_DB, VA_WEB e VA_MT (ovvero dati linguistici, commenti, voci di glossario, codici informatici e file media ecc.) come dati di ricerca, secondo i principi FAIR e si orienta alle raccomandazioni del RfII (RfII 2016, allegato A, p. A-13). VerbaAlpina possiede lo status di progetto pilota ed è coinvolto nei sopracitati progetti GeRDI e “eHumanities – interdisziplinär”.

Un aspetto essenziale della gestione dei dati della ricerca è la garanzia di interoperabilità, in quanto sono possibili collegamenti permanenti tra parti di progetti o database. In questo senso, anche i cosiddetti DOIs, i "Digital Object Identifiers", giocano un ruolo importante. Questi rappresentano il prerequisito tecnico per l'indirizzabilità permanente ed indipendente dall'URL degli "oggetti digitali", e possono essere generati per tutti i contenuti elettronici accessibili tramite un URL. In ambito bibliotecario, i DOI sono stati inizialmente utilizzati per l'identificazione persistente di pubblicazioni elettroniche di libri (ad es. https://doi.org/10.5282/ubm/epub.25627) o di interi siti web (ad es. http://dx.doi.org.emedien.ub.uni-muenchen.de/10.5282/asica). A differenza di questa pratica, la necessità di interoperabilità tra dati sviluppati e gestiti separatamente richiede una gestione molto più ricercata. A questo scopo, VA genera una serie di file accessibili su Internet tramite URL, i quali contengono il materiale linguistico raccolto, raggruppato per tipologie morfo-lessicali, concetti, comunità di origine e singoli documenti. I file sono contraddistinti attraverso gli ID delle rispettive categorie di dati assegnati da VA. I file della categoria "Comuni" sono indicati da una "A" all'inizio del nome del file, "C" indica i concetti e "L", invece, i tipi morfo-lessicali. I numeri ID sono assegnati in maniera automatica da VA e l'accesso a questi dati è possibile tramite l'indirizzo Page:EXPORT].


L'assegnazione dei DOI viene inizialmente effettuata nell'ambito del progetto "eHumanities – interdisziplinär" dalla Biblioteca Universitaria della LMU, il quale rileva, tra l'altro, i dati nella propria banca dati e, attraverso procedimenti ancora da sviluppare e attraverso l'utilizzo di uno schema di meta-dati adatto, li rende al suo interno ancora più accessibili.

Si veda anche Normdaten.

(auct. Sonja Kümmet [UB der LMU] | Stephan Lücke | Julian Schulz [ITG] | Florian Zacherl – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione



Illustrazione quantificata  (Citazione)

[Premessa: il seguente articolo si riferisce, in parte, ad alcune funzionalità di VA_WEB ancora in via di sviluppo e, pertanto, non accessibili al pubblico.]

La mappa interattiva online di VerbaAlpina permette sia una mappatura qualitativa dei dati locali, sia la visualizzazione di dati aggregati in una rappresentazione spaziale degli stessi. L'aggregazione dei dati è sempre orientata alle regioni geografiche. L'utente può, così, scegliere fra un tipo di aggregazione effettuata in base al territorio comunale (un territorio più circoscritto); un tipo di raggruppamento basato sulle cosiddette regioni- NUTS-3 (territorio di mezzo); e, ancora, un ultimo tipo basato sull'area di distribuzione delle tre grandi famiglie linguistiche – germano, romano e slavo – (territorio ad ampio raggio). Esiste, inoltre, la possibilità di definire facoltativamente dei territori comunali come regioni individuali, le quali vanno, poi, ad istituirsi come grandezza di riferimento per il raggruppamento dei dati. Quest'ultima opzione può evitare degli effetti forzati risultanti dalla prospettiva di un'aggregazione orientata ed impostata sulle aree amministrative  - e così, dal punto di vista linguistico, non concernente la materia – di territori comunali o delle regioni-NUTS-3. Nel caso specifico, il procedimento corrispondente non può che essere di tipo euristico; l'utente ha, tuttavia, la possibilità di mettere sensatamente insieme le varie coerenze regionali, oltre alla possibilità di commentarle, riutilizzarle e metterle a disposizione del pubblico.

Riguardo le regioni o superfici selezionate, vengono, poi, aggregati tutti i dati qualitativi scelti fino all'attivazione della presentazione quantificata. Sia la grandezza che la colorazione di singoli simboli cartografici sono correlate al numero di ciascun singolo dato qualitativo legato ad un simbolo. Il valore massimo aritmetico che sta alla base, al raggiungimento del quale un simbolo ottiene la propria massima grandezza e colorazione, corrisponde, di norma, al numero più alto di dati aggregati che appare in una delle superfici, ossia regioni, selezionate. Tale valore massimo di referenza può essere convertito nel numero totale dei dati singoli aggregati, operazione che porta ad una diversa illustrazione cartografica.

In una quantificazione attivata, possono essere utilizzati dati qualitativi corrispondenti al calcolo delle quantità attraverso una disattivazione di singoli appunti di lista in un'interpretazione cartografica. Inoltre, è possibile aggiungerne altri attraverso un'ulteriore selezione.

Accanto alla quantificazione sullo sfondo di una carta georeferenziata che mostri la reale demarcazione dei confini, VerbaAlpina permette anche la presentazione di dati quantificati su una cosiddetta carta ''a nido d'ape''. L'esempio che riporteremo è dato da una grafica di Wikipedia che visualizza i generali risultati delle elezioni in Gran Bretagna del 2015: prima di tutto, verrà mostrata una carta la cui fedeltà si riferisce a precisi punti, lunghezze ed angolature (in seguito denominata "carta geografica"), con i risultati dell'elezioni nelle singole circoscrizioni; a seguire, invece, verrà mostrata l'illustrazione della carta a nido d'ape in cui ogni circoscrizione viene resa tramite un esagono dalle proporzioni e grandezze identiche a quelle degli altri esagoni.




Fonte: https://upload.wikimedia.org/wikipedia/commons/3/3e/2015UKElectionMap.svg (visitato il 03.11.2016)




Fonte: https://upload.wikimedia.org/wikipedia/commons/c/cd/2015_UK_general_election_constituency_map.svg (visitato il 03.11.2016)

Il confronto dei due tipi cartografici ne evidenzia i relativi vantaggi e svantaggi. La carta a nido d'ape potrebbe presentare delle inesattezze geografiche o, addirittura, delle informazioni sbagliate: nel distretto di Greater London, ad esempio, un favo isolato in rosso è circondato da diversi altri favi blu – cosa apparentemente non riscontrabile nella carta geografica. La carta a nido d'ape ha, però, il vantaggio di visualizzare al meglio le proporzioni numeriche reali tra i singoli colori, in quanto un grande numero di sezioni elettorali con una misura di superficie molto piccola viene percepito dall'osservazione sulla carta geografica come subordinato, nonostante il valore politico sia allo stesso livello delle sezioni elettorali con una misura di superficie grande. Così, i due tipi cartografici si completano a vicenda, ed il valore aggiunto consiste nell'effettiva possibilità di poter consultare entrambe le carte e di confrontarne i risultati.

La carta a nido d'ape di VerbaAlpina si distingue, inoltre, per la possibilità di illustrare tutte le comunità politiche del territorio alpino attraverso esagoni tra loro identici in grandezza: in questo modo, si cerca di mantenere, almeno approssimativamente, una certa logicità geografica. Il calcolo della colorazione dei singoli esagoni avviene secondo lo stesso procedimento poc'anzi descritto per la carta punto-simbolo. Il vantaggio di una tale carta a nido d'ape rispetto ad una semplice colorazione di territori comunali su una carta geografica, consiste nel fatto che, così facendo, vengono repressi degli eventuali effetti suggestivi tramite la grandezza dei territori comunali, molto differenti tra loro.

(auct. Stephan Lücke – trad. Monika Hausmann)

Tags: Tecnologia dell'informazione Pagina Web



Metadati  (Citazione)

Quando ci si occupa di dati è bene delineare la differenza che intercorre tra dati primari e metadati. Questi ultimi si caratterizzano, infatti, come dati che descrivono i dati primari. Al posto del termine "metadati" possono anche essere impiegati i termini "attributi" o "caratteristiche", dal medesimo significato. Nel corso della modellazione dei dati, si stabilisce da quali ''metadati'' i dati primari debbano o possano essere descritti. La categoria "metadati" si suddivide ulteriormente in singole sottocategorie di metadati. Per ogni categoria di metadati sono definiti i valori ammessi.

Per concretizzare questo concetto, ci serviremo di un esempio. Ammettiamo che i dati primari indichino delle persone. Ogni persona è descritta attraverso il suo cognome, il suo nome, il luogo e la data di nascita così come il colore degli occhi. I valori ammissibili possono, dunque, essere descritti come segue:

Cognome: catena di caratteri composta da lettere;
Nome: catena di caratteri composta da lettere;
Luogo di nascita: catena di caratteri composta da lettere;
Data di nascita: data nella forma JJJJ-MM-TT;
Colore degli occhi: un valore della lista "marrone, verde, blu".

La somma di ogni valore delle diverse categorie di metadati dovrebbe permettere di descrivere univocamente la persona in questione. Nel momento in cui ci si dovesse trovare di fronte ad una duplicità nell'insieme di dati, ossia nel caso in cui due individui dispongano di valori completamente identici in tutte le categorie di metadati, lo schema di metadati dovrà essere considerato come inadeguato e, di conseguenza, modificato.

(auct. Stephan Lücke – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione



Modellazione dei dati  (Citazione)

Con l'espressione ''modellazione dei dati'' VerbaAlpina intende lo sviluppo teorico di una struttura di materiale inizialmente non strutturato. Si tratta, essenzialmente, della definizione delle cosiddette entità, ovvero una classe di singoli elementi digitali, accomunati da un particolare tipo e un particolare numero di attributi (=caratteristiche). Solo ed esclusivamente questi attributi sono rilevanti per la definizione del contenuto e della funzione degli elementi.. Nel corso della modellazione dei dati viene effettuata anche la definizione delle relazioni tra le diverse entità.
La modellazione dei dati deve essere differenziata dalla strutturazione dei dati e dal formato dei dati. La strutturazione dei dati rappresenta l'applicazione concreta del modello teorico a una banca dati come risultato di una rappresentazione strutturata di dati, sotto forma di una o più tabelle. Una banca dati strutturata può, a sua volta, essere raffigurata attraverso diversi formati di dati (ad esempio, nella forma tabulare = formato di dati relazionale, formato XML e così via). Spesso la trasformazione dall'uno all'altro formato è possibile.

Si veda anche il modello relazionale.

(auct. Stephan Lücke – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione



Moduli  (Citazione)

Si veda Controllo versione.

Tags: Tecnologia dell'informazione



Principi FAIR  (Citazione)

Un gran numero di scienziati provenienti da diversi Paesi ha pubblicato nel 2016 sulla rivista Nature un articolo sulla formulazione di linee guida per la gestione dei dati di ricerca (Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: 10.1038/dati.2016.18 (2016). 🔗). Le idee presentate in questa pubblicazione si riferiscono ad un workshop dal titolo Jointly designing a data FAIRPORT, svoltosi nel gennaio del 2014 presso il Lorentz Center dell'Università di Leiden, nei Paesi Bassi.

Nel frattempo, le idee riassunte nell'acronimo FAIR si sono affermate come punto di orientamento nell'attuale dibattito sul corretto trattamento dei dati di ricerca. Questa tendenza è emersa chiaramente durante l'incontro del progetto GeRDI, avvenuto nell'ottobre 2018; cfr. anche FAIRGROUP della Community FORCE11).

L'acronimo FAIR riassume quattro postulati centrali, in parte interdipendenti, su cui dovrebbero basarsi il trattamento dei dati di ricerca (🔗):

  • F — Findable
  • A — Accessible
  • I — Interoperable
  • R — Reusable

Questi quattro termini centrali comportano implicitamente una serie di conseguenze per la gestione dei dati digitali di ricerca.

Affinché i dati siano reperibili, dovrebbe esistere almeno un portale centrale attraverso il quale sia possibile avviare la ricerca. Sarebbe utile incorporare la documentazione dei dati di ricerca all'interno dei cataloghi delle biblioteche già creati da diverso tempo (si tratta essenzialmente del loro contenuto e del loro luogo di conservazione). I concetti che implicherebbero una ricerca in luoghi diversi sarebbero, invece, da evitare.

Per essere trovati, e, dunque, reperibili, i dati devono essere fisicamente esistenti. Non si tratta tanto di una questione di realizzazione tecnica, che può essere, ad esempio, operata da centri informatici già esistenti, quanto, piuttosto, di una responsabilità istituzionale. Le biblioteche sono da considerarsi gli enti adeguati all'adempimento di questo compito, in quanto, per la loro storia, svolgono il ruolo di ''custodi del sapere'', oltre che per la loro prospettiva di conservazione dei dati a lungo termine. Esse dovrebbero, dunque, assumersi la responsabilità della conservazione sostenibile dei dati digitali. In che modo ciò avvenga – sia che le biblioteche costituiscano propri repositori o che amministrino quelli forniti dai centri informativi – non è di vitale importanza e può essere gestito singolarmente, caso per caso.

Un ruolo di grande importanza ricoprono, invece, l'ideazione e l'assegnazione dei metadati, attraverso i quali devono essere resi disponibili i dati della ricerca vera e propria. Risulta indispensabile utilizzare almeno uno schema di metadati gerarchicamente strutturato e vincolante che permetta una categorizzazione dei contenuti dei dati di ricerca memorizzati con l'integrazione di vocabolari controllati. Per il momento, VerbaAlpina ha deciso di orientarsi verso il Datacite-Schema, un sistema ampiamente utilizzato e scelto anche dalla biblioteca universitaria della LMU. L'utilizzo di diversi schemi di metadati concorrenti sarebbe possibile, ma risulterebbe sensato solo nel momento in cui essi venissero creati in modo coerente per tutti i dati di ricerca raccolti. Gli schemi di metadati specifici subordinati possono rappresentare un'integrazione significativa per gli schemi di metadati di livello superiore.

Il termine "accessible" indica la possibilità di accedere ai dati senza limitazioni di tipo legale, come invece accade con il Copyright. Questo punto è meno influenzato da coloro che raccolgono o producono i dati. Oltre al diritto d'autore, durante la raccolta dei dati deve essere spesso osservata la protezione dei diritti personali. La domanda di accessibilità punta a garantire che tutti i dati generalmente non soggetti a restrizioni legali non siano resi protetti da tali restrizioni da parte degli stessi produttori dei dati. Concretamente, ciò significa innanzitutto rinunciare al diritto d'autore e utilizzare un modello di licenza conforme alle condizioni del libero accesso. L'utilizzo delle licenze Creative Commons (CC) è molto diffuso in ambito scientifico, sebbene non tutte soddisfino i criteri per il libero accesso. In particolare, il divieto di uso per scopi commerciali, che può far parte di una licenza CC, viola il concetto di libero accesso. Il motivo è che quasi tutti gli usi dei dati possono essere considerati come "uso commerciale" in determinate circostanze, e, dal punto di vista giuridico, è praticamente impossibile tracciare una linea di demarcazione chiara a riguardo (si veda anche l'articolo "Licenze").

Così come la reperibilità dei dati, anche l'interoperabilità consiste in due aspetti, uno tecnico e uno teorico-organizzativo. Spesso è necessaria una granulazione logica e libera dei dati, al fine di poter collegare con successo tra loro gli stock dei dati e per consentire le relazioni tra gli stessi. In tale contesto, i cosiddetti "Dati standard" ricoprono un ruolo centrale: essi rappresentano categorie concettuali ben definite e idealmente standardizzate, le cui singole istanze (oggetti digitali) sono distinte in relazione a un tipo e a un numero di proprietà chiaramente definiti. L'assegnazione di identificatori numerici o alfanumerici ("ID"s) ai singoli oggetti di una categoria concettuale consente il riferimento univoco agli oggetti. La granulazione degli stock di dati lungo i confini delle categorie e delle loro singole istanze/dei loro singoli oggetti, in combinazione con l'uso di identificatori specifici, consente, quindi, di collegare insiemi di dati separati con contenuto congruente. Tuttavia, un vero valore aggiunto si ottiene solo quando è anche tecnicamente possibile fare riferimento diretto ai singoli oggetti e, dunque, spostarsi da un database all'altro in un solo click. Ciò è possibile solo tramite l'assegnazione di un proprio URL ad ogni singolo dato ("Granum"). Ai fini della sostenibilità, ad ogni URL deve, inoltre, essere assegnato anche un DOI.

Il riutilizzo degli stock di dati è il risultato finale di un'attenta osservazione ed una conseguente attuazione dei tre postulati precedenti.

VerbaAlpina si impegna a conformare tutte le procedure e i regolamenti relativi ai dati con i principi FAIR. Thomas Krefeld considera questo impegno come la base fondamentale dell'etica nella ricerca all'interno dell'informatica umanistica (Thomas Krefeld [2018]: Linguistische Theorien im Rahmen der digital humanities. Korpus im Text. Version 2 (05.11.2018, 11:35). Absatz 4. url: http://www.kit.gwi.uni-muenchen.de/?p=28010&v=2#p:4.). La cooperazione con la biblioteca universitaria della LMU e con il progetto finanziato dal DFG GeRDI, attualmente realizzato nell'ambito del progetto e-humanities – interdisziplinär, permette la reperibilità dei dati. In particolare, il database centrale del Modulo VA_DB è dotato dei metadati di quella versione e trasferito alla biblioteca universitaria della LMU in varie forme, dove è memorizzato nell'Open-Data-Repositorium. I metadati, per lo meno, sono poi incorporati nell'indice attualmente in fase di creazione nell'ambito del progetto GeRDI. L'obiettivo è quello di rendere accessibili i dati raccolti ed elaborati da VerbaAlpina attraverso il catalogo della biblioteca universitaria e anche attraverso il portale di ricerca del progetto GeRDI, ancora in fase di sviluppo. Tutti i dati gestiti da VerbaAlpina saranno, per quanto possibile, inseriti in una licenza Creative Commons in libero accesso (fino alla versione 18/1 CC BY SA 3.0, dalla versione 18/2 CC BY SA 4.0). L'interoperabilità si ottiene da un lato attraverso la granulazione dello stock di dati, che si basa anche sul concetto di norme standard, collegando i dati standard esistenti con il materiale di VerbaAlpina. Questo è possibile, ad esempio, con dati geografici come le unità politiche, che rappresentano il sistema di riferimento geografico centrale di VerbaAlpina. Per le categorie di dati "Tipi morfolessicali" e "concetto", centrali per VerbaAlina, sono esistenti, solo in parte, dati standard ai quali i dati VerbaAlpina potrebbero essere correlati. In questi casi, il progetto si sforza di creare, in collaborazione con istituzioni predestinate come la Biblioteca Nazionale Tedesca (DNB), dei dati standard o delle categorie di dati standard corrispondenti. Al fine di soddisfare i requisiti tecnici per un'efficiente interoperabilità, il materiale centrale dei dati lessicali viene memorizzato in un gran numero di piccoli file, ai quali è possibile accedere tramite DOI individuali su Open Data LMU. Inoltre, ad ogni singolo file è allegato un file di metadati in formato Datacite, che nella sua interezza permette di trovare i singoli file attraverso il catalogo della biblioteca.



(auct. Stephan Lücke – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione



Regole di trascrizione  (Citazione)


Caratteri di base


Carattere Descrizione Beta Code Commento
α
Greek alphaa1
ɒ
mirror-inverted aa2
æ
ligature aea3
β
Greek betab1
ƀ
crossed out bb2
χ
Greek Chic1
ҁ
sign for glottis closurec2
c
crossed out cc3
ɕ
c4
δ
Greek deltad1
đ
crossed out dd2
ð
ethd3
ə
schwae1
tick to the left of the ee2
ε
Greek epsilone3
φ
Greek Phif1
ƒ
labiodental fortisf2
ɣ
Greek gammag1
open g on the rightg2
g with bottom lineg3
ʔ
glottal beatg4
ɥ
h1
i with slanted linei1
ı
i without doti2
ɨ
i with horizontal linei3
ɪ
i4
ɟ
j1
ł
crossed out ll1
l with strongly curved linel2
l with two curved linesl3
λ
Lambdal4
ʎ
l5
ɱ
m1
ɳ
sign for velar "n" (German: kling)n1
ŋ
velar nasalsn2
ɲ
n3
œ
ligature oeo1
ɔ
open o on the lefto2
ơ
o with tick at the upper right margino3
ǫ
o with ogoneko4
ø
o with diagonal lineo5
ω
Greek omegao6
π
the number Pip1
þ
thornp2
q with horizontal lineq1
ʀ
Upper case letter R at the height of a lower case letterr1
ɹ
r2
ɾ
r3
ʃ
Eshs1
s with diagonal stroke lefts2
ʂ
s3
ϑ
Greek thetat1
Stronger curved uu1
ʊ
u2
ʒ
Ezhz1
ʑ
z2

Diacritici


Carattere Descrizione Beta Code Commento Esempio
dot under base character?s?
ė
dot above base character?1e?1
ä
two dots above base character:a:
two dots under base character:1u:1
tick open to the right under base character(o(
two ticks open to the right under base character(1e(1
semicircle open to the left (spiritus lenis) above base character)r)
semicircle open to the left under base character)1o)1
ç
cedilla)2c(2
ó
acute on base character/o/
double acute on base character/2o/2
à
gravis on base character</td>a</td>
double gravis on base character\2a\2
gravis with dot at the upper end on base character\3u\3
ā
horizontal line above base character-minus sign -a-
ā̄
two horizontal lines above base character-2minus sign -a-2
horizontal line under base character_underscore_n_
Double horizontal line under base character_1n_1
tilde ABOVE base character~e~
stronger curved tilde ABOVE base character~1
tilde UNDER base character+e+
semicircle opened to the TOP ABOVE base character!a!
semicircle opened to the BOTTOM ABOVE base character%a%
semicircle opened to the BOTTOM UNDER base character@a@
semicircle opened to the TOP UNDER base character@1k@1
circle ABOVE base character|u|
circle UNDER base character&s&
vertical line under base character$e$
hacek^g^
ĝ
circumflex^1g^1
"circumflex" under base character^2o^2
"hacek" under base character^3d^3
u
infinity symbol above base character"u"
"greater-than symbol" above base character>n>
cross under base character*a*
cross above base sign*1a*1
g’
apostrophe after base character'on the #-keyg'
inverted apostrophe after base character'1on the #-keya'1
elevated vertical line after base character'2on the #-keyg'2
tick after base character=k=
superscript number after base character\<n>0mask number with \ and put 0 after itc\20
IPA length character:2a:2
half IPA length character:3a:3
ᵃb
base character above the baseline0a0b
base character on the baseline, smaller than all other characters8n8d
ᵢn
base character below the baseline9i9n
upper or lower diacritics in brackets[<d>]Diacritic in brackets between square bracketsu[:] bzw. e[?]
base character above base character{<z>}elevated base character between bracesa{o}
base character below base character{1<z>}a{1o}

Caratteri particolari

In linea di principio, questi caratteri rappresentano caratteri di base, ma non possono essere completati con diacritici.

Carattere Descrizione Beta Code Esempio
·e̜kọ́ɳ
A dot, before or after the base character. Higher than the baseline..1.1e(ko?/n1

Spazi particolari
(In questa tabella, gli spazi normali sono rappresentati dal simbolo ␣)

Carattere Descrizione Beta Code Esempio
w‿d
blank with curve{␣}w{␣}d


(auct. Stephan Lücke | Florian Zacherl)

Tags: Tecnologia dell'informazione



Strutturazione dei dati  (Citazione)

Si veda Modellazione dei dati.

Tags: Tecnologia dell'informazione



Tecnologia  (Citazione)

VerbaAlpina fa uso delle possibilità offerte dalle moderne tecnologie online, nei limiti del possibile. Il nucleo centrale del progetto è la piattaforma Wordpress (Modulo VA_WEB) alla quale sono collegate molteplici banche dati MySQL (Modul VA_DB). Wordpress è un framework PHP disponibile gratuitamente ed in libero accesso, con la possibilità, quindi, di estensioni individuali. Le sue funzionalità possono essere completate attraverso l'utilizzo di biblioteche Javascript. Quest'ultima possibilità si riferisce soprattutto alla cartina interattiva online, la quale, nella prima versione di VerbaAlpina, si serviva della Biblioteca Javascript di Google Maps. A partire dalla versione VA 19_1, è previsto il passaggio al Framework Javascript "Leaflet" in libero accesso, accompagnato dall'implementazione di un layer ad alte prestazioni WebGL per la visualizzazione di grandi quantità di dati.

Per quanto possibile e opportuno, tutte le funzionalità Worpress sviluppate da VerbaAlpina vengono realizzate sotto forma di Plug-in. Questi ultimi vengono successivamente deposti all'interno di "Github", una piattaforma molto conosciuta e riconosciuta fra gli sviluppatori (https://github.com/VerbaAlpina/). Da lì, i plug-in possono essere scaricati e riutilizzati senza limiti. L'utilizzo di plug-in nell'ambito dello sviluppo dei software è permesso grazie all'ormai diffusa licenza MIT. Su Github, la differenziazione tra PHP e Javascript-Code è artificiale ed è stata inserita automaticamente nel sistema da Github. La maggior parte dei Plug-in sviluppati da VerbaAlpina, oltre a un codice PHP, contengono solitamente parti di codici Javascript. Attualmente (Novembre 2018), sulla pagina di VerbaAlpina su Github sono presenti i seguenti plug-in: "TranscriptionTool-Plugin", "Interactive-Map_Plugin" e "Verba-Alpina-Plugin". Inoltre, è possibile scaricare anche il "Verba-Alpina-Theme", il tema del design dell'interfaccia di VerbaAlpina. Stiamo, inoltre, lavorando all'ampliamento dell'offerta di Plug-in sviluppati da VerbaAlpina su Github, al fine di renderli disponibili per il download.

Ecco la lista delle più importanti estensioni sviluppate da VerbaAlpina:

  • Carta geografica interattiva online (visualizzazione a più strati dei dati);
  • Tool di trascrizione (per la trascrizione di dati da atlanti linguistici);
  • Tool di tipizzazione (categorizzazione di materiale raccolto ed assegnazione di tipi);
  • Albero a concetti (gestione della struttura gerarchica del mondo concettuale);
  • Tool CS – Tool "Crowdsourcing", per la raccolta di dati linguistici via internet al fine di integrare e completare il materiale già a disposizione);
  • SQLtoHTML (integrazione diretta dei risultati delle richieste SQL nei contributi di Wordpress).

Oltre a questi strumenti complessi, probabilmente utili anche per gli utenti esterni a VerbaAlpina, sono state sviluppate in dettaglio numerose funzionalità, la cui trasformazione in plug-in modulari non sembra avere senso, in quanto essi paiono troppo piccoli o troppo specifici per le esigenze di VerbaAlpina. Tuttavia, anche questa categoria di sviluppi è accessibile, soprattutto perché il codice completo del software di VerbaAlpina è memorizzato su Github in aggiunta ai plug-in di cui sopra.

Come già accennato, l'interfaccia legata a Wordpress si compone di diverse banche dati MySQL. Il database va_wp si basa su un modello standard di una banca dati MySQL, cosa comune per le installazioni di Wordpress. Attraverso questi database vengono gestite soprattutto le funzionalità "generiche" delle installazioni Wordpress, come, ad esempio, la gestione degli utenti. La banca dati va_xxx raccoglie, invece, tutto il materiale scientifico di VerbaAlpina come, ad esempio, le trascrizioni (Tabella 'tokens'), le tipizzazioni in senso lato ('morph_typen', 'basistypen', 'etyma' e 'lemmata'), i concetti ('konzepte'), i contributi metodologici ('glossar'), i contributi del lessico alpino ('im_comments') o, ancora, la bibliografia ('bibliographie'). Il suffisso 'xxx' designa le diverse versioni operative di VerbaAlpina il cui database è soggetto a continui cambiamenti durante il suo funzionamento. Durante la creazione di una versione di VerbaAlpina, viene altresì prodotta una copia stabile di questo database il cui nome contiene nel suffisso il numero corrispondente (ad esempio va_181). Per diversi partner di VerbaAlpina esiste, inoltre, una specifica banca dati MySQL, i cui nomi hanno come prefisso "pva_" (=Partner Verba Alpina) succeduto dall'abbreviazione del progetto partner in questione (es: pva_ald-i).

I file multimediali (immagini, video, registrazioni audio) raccolti da VerbaAlpina nella mediateca dell'installazione di Wordpress (Modul VA_MT) vengono memorizzati nel file system del server web, come accade di consueto per le installazioni di Wordpress.

Tutte le istanze tecnologiche di VerbaAlpina, ovvero le installazioni Wordpress così come le banche dati, utilizzano l'infrastruttura tecnologica del gruppo della tecnologia dell'informazione della LMU. Questa istituzione sviluppa un sistema di gestione informatica professionale con il server web e database ad alta disponibilità, ed utilizza, altresì, i servizi del centro informatico Leibniz dell'Accademia Bavarese delle Scienze. Il gruppo della tecnologia dell'informazione è composto da sette posti di lavoro fissi garantiti a lungo termine. Una parte del personale si dedica esclusivamente al funzionamento, alla manutenzione e alla cura dell'hardware e dei software dei server.

Tutti gli sviluppi software sono stati realizzati dagli informatici David Englmeier (collaboratore scientifico a partire da ottobre 2016), Filip Hristov (assistente a partire da settembre 2016) e Florian Zacherl (collaboratore scientifico a partire da ottobre 2014).

(auct. Stephan Lücke – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione



Terminologia  (Citazione)

Spesso, all'interno del progetto di VerbaAlpina si parla di una differenza tra i dati ''grezzi'', dati primari e metadati, nonostante una definizione vincolante di queste espressioni non sia ancora stata formulata.

Con l'espressione ''dati grezzi'' si fa riferimento ai dati rilevati dalle "fonti" (ad esempio, da partner, via OCR da vocabolari, attraverso trascrizione ecc.). VA si basa sul modello Stuart Card (infovis-reference-model; reference-model for vizualization). Di conseguenza, si opera una distinzione tra dati grezzi e dati primari. I dati grezzi sono tutti i dati esistenti in tale forma prima che vengano rilevati elettronicamente all'interno della struttura di VA. Ciò vale anche per il caso in cui i dati da rilevare siano già presenti nella struttura di VA, in quanto, anche in questo caso, per il rilevamento è necessaria un'interazione da parte dell'uomo (per determinare, ad esempio, *che* la struttura è identica).

I dati primari sono definiti come segue: tutti i dati che vengono prelevati attraverso l'API con il parametro "getRecord" (esempio: https://www.verba-alpina.gwi.uni-muenchen.de/?api=1&action=getRecord&id=C1&version=182&format=xml&empty=0) (non ancora completamente implementati). Si differenzia tra dati primari di centrali (=dati linguistici) e dati primari periferici (periferia linguistica come ad esempio dati archeologici).

I metadati sono i dati che descrivono i dati primari (per esempio, i dati amministrativi per la descrizione dell'intero progetto, tutti i testi esplicativi raccolti nella sezione ''metodologia'' la quale illustra i diversi aspetti dell'intero progetto oppure nella sezione ''lessico alpino''.
Con l'espressione ''dati secondari'' ci si riferisce, invece, ai dati che servono all'elaborazione di tutti gli altri dati (Code, Queries ecc.).

(auct. David Englmeier | Filip Hristov | Thomas Krefeld | Stephan Lücke | Christina Mutter | Florian Zacherl – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione



Trascrizione  (Citazione)

I materiali linguistici vengono resi in doppia forma grafica per adempiere a due principi: la fedeltà alle fonti da un lato ed una facile comparabilità tra le forme dall'altro.

(1) Versione input nella trascrizione originale
Nel portale di VerbaAlpina vengono riunite fonti che derivano da diverse tradizioni scientifiche (romanistica, germanistica, slavistica) e rappresentano delle fasi storicamente diverse della ricerca dialettologica; se alcuni dati lessicografici sono stati rilevati all'inizio del secolo scorso (GPSR), altri lo sono stati solo pochi anni fa (ALD). Per questo motivo, da un punto di vista storico ed epistemologico, è necessario rispettare la trascrizione originale nel miglior modo possibile. Per ragioni tecniche è, tuttavia, impossibile mantenere certe forme così come sono pervenute nelle fonti. Questo vale soprattutto per le combinazioni verticali di carattere di base ('lettera') e segni diacritici, come accade, per esempio, quando un segno indicante un accento è posizionato sopra un carattere di lunghezza sopra una vocale sopra un diacritico di chiusura (Codice beta). Queste convenzioni vengono trasferite in sequenze lineari di caratteri secondo trascrizioni tecniche definite in maniera particolare per ogni convenzione utilizzando esclusivamente dei caratteri ASCII (il cosiddetto codice beta). Impiegando la codifica beta si può approfittare, almeno in parte, delle somiglianze grafiche intuitivamente comprensibili tra diacritici originali e le corrispondenze ASCII da noi scelte in quanto mnemonicamente vantaggiose.

(2) Versione output in IPA
In una trascrizione unificata è, inoltre, auspicabile l'output dei dati in un'ottica di comparabilità e facilità d'uso per l'utente. Tutti i codici beta saranno, quindi, trasferiti in segni IPA attraverso specifiche sostituzioni di routine. Alcuni problemi inevitabili nascono nei casi in cui ad un carattere di base specificato attraverso diacritici nella trascrizione input corrispondano due caratteri di base diversi in IPA. Questo vale soprattutto per il grado di apertura delle vocali, come, ad esempio, nel caso dei due caratteri di base <i> e <e>, in combinazione con il punto di chiusura e uno o due uncini di apertura, i quali permettono di rappresentare sei diversi gradi di apertura nella serie palatale; nella codifica beta, essi vengono resi come segue: i – i( – i((– e?-- e – e(– e((. Per rendere i caratteri, IPA dispone soltanto di quattro caratteri di base: i – ɪ – e – ɛ.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Linguistica Tecnologia dell'informazione



Umanistica digitale  (Citazione)

Il progetto VerbaAlpina è stato pensato fin da principio tenendo presente la sua necessaria conformità al web. Questo perché il progetto vuole contribuire significativamente al trasferimento delle solide tradizioni umanistiche, più precisamente della geolinguistica, nelle cosiddette Digital Humanities (informatica umanistica). Sebbene questa espressione sia oramai pienamente accreditata, i termini che la compongono non risultano auto-esplicativi e meritano, dunque, un'ulteriore osservazione di tipo metodologico.

(1) Il termine Digital comporta una serie di complesse implicazioni:

  • La base empirica della ricerca consiste di dati (cfr. Schöch 2013), ovvero unità digitalmente codificate e strutturate, o quantomeno strutturabili. Spesso si tratta di dati parzialmente già pubblicati e successivamente digitalizzati (come, ad esempio, i dati di atlanti più antichi); in parte, però, anche di dati da rilevare nell'immediato. Per quanto riguarda i concetti rilevanti, il progetto aspira a raccogliere il più vasto numero di dati possibile. Il metodo è, quindi, quantitativo ed ampiamente induttivo.
  • La comunicazione nella ricerca ha luogo tramite le condizioni mediali offerte dall'internet. Ciò offre, in primo luogo, la possibilità di intrecciare ipertestualmente media diversi (scrittura, illustrazione, contenuti video e audio); inoltre, i ricercatori, così come i partner di cooperazione del progetto e/o gli informanti, hanno la possibilità di comunicare e cooperare costantemente tra loro.
  • Agli studiosi interessati al progetto si presenta la possibilità di partecipare attivamente allo sviluppo di questa piattaforma scientifica progettuale e collaborativa. Questa prospettiva è utile e produttiva sotto almeno due aspetti: essa permette, infatti, di collegare diverse sedi e – soprattutto – di promuovere la combinazione costruttiva di tecnologia dell'informazione e geografia linguistica con delle risorse pubbliche, senza dover necessariamente ricorrere all'assistenza di imprese private che si occupino di TI (assistenza che, per altro, potrebbe creare complicazioni di natura giuridica ed economica).
  • Il sapere rilevante per il progetto può essere raccolto e modificato continuamente anche a lungo termine, sebbene non si possa dare garanzia di una sua disponibilità duratura nel tempo dal punto di vista tecnico (si confronti, a questo proposito, l'infrastruttura scientifica CLARIN-D http://de.clarin.eu/de/home.html, sito fruibile solo in tedesco e inglese). In questa prospettiva, la pubblicazione dei risultati sotto forma di libri, CD, DVD non rappresenta l'obiettivo centrale del progetto. Si provvederà, tuttavia, ad installare un'opzione di stampa posticipata, come viene offerta, talvolta, anche dalla lessicografia online Tesoro della Lingua Italiana delle Origini.
(2) Con la parola Humanities si intende una specifica concezione dell'oggetto di ricerca, il quale, se preso in esame esclusivamente secondo la visione filologica tradizionale, non risulterebbe adeguatamente e pienamente analizzato. La tradizione filologica incentrata sul testo è stata, difatti, sorpassata dalle aree della linguistica che si occupano della lingua parlata. In relazione al progetto VerbaAlpina, tuttavia, il solo parlare di digital linguistics risulterebbe troppo restrittivo, in quanto, sebbene al centro della ricerca vi siano i dati linguistici, è chiaro che vi vengano inclusi anche dei dati extra-linguistici, indispensabili per la comprensione storica delle relazioni geolinguistiche.

(auct. Thomas Krefeld – trad. Alessia Brancatelli | Susanne Oberholzer)

Tags: Tecnologia dell'informazione



Uniform Resource Name (URN)  (Citazione)

Si veda il contributo Digital Object Identifier.

Tags: Tecnologia dell'informazione



Wikidata  (Citazione)

Wikidata è un database libero che funge da memoria centrale per l'organizzazione dei dati del gruppo Wikimedia (Wikipedia, Wikivoyage, Wikisource) di maniera strutturata. I dati su Wikidata vengono messi a disposizione mediante una licenza libera (Creative Commons Public Domain Dedication 1.0) e possono essere creati, utilizzati e ricercati in 111 lingue diverse. Contrariamente a Wikipedia, Wikidata non dispone di articoli completi, ma solamente di una lista di singoli concetti. Ogni concetto dispone di un Q-ID. Il concetto di SIERO dispone, ad esempio, del Q-ID 185009 (cfr. Wikidata). Benché la durata di questo catalogo in senso stretto non sia garantita, dal punto di vista linguistico esso rappresenta di fatto la base di un sistema di referenza onomasiologico molto utile.

Ogni concetto di VerbaAlpina possiede dunque il relativo Q-ID di Wikidata. A questo scopo, su Wikidata è stato creato un account progettuale per VerbaAlpina. Nonostante le lingue di default siano il tedesco e l'inglese, è, tuttavia, possibile inserire la traduzione del singolo concetto in tutte le lingue disponibili su Wikidata.

(auct. Christina Mutter – trad. Beatrice Colcuc)

Tags: Tecnologia dell'informazione