I principi FAIR nel progetto VerbaAlpina, ossia il trasferimento della geolinguistica alle Digital Humanities (Zitieren)

Thomas Krefeld


(1435 Wörter)

Questo contributo corrisponde a una relazione tenuta all'Università di Verona, il 13/12/2018; sono grato a Sara Ingrosso per la revisione stilistica del mio italiano.

 

Premessa alpinistica

Si racconta che uno dei grandi pionieri alpinistici, Albert Frederick Mummery (🔗), scalando la Dent du Géant nel massiccio del Monte Bianco, abbia lasciato sotto una placca di granito una bottiglia contenente un pezzetto di carta su cui era scritto:  

Impossible by fair means.

Noi tutti, lungo la salita verso il trasferimento della dialettologia (e varietistica) tradizionale  a favore di una geolinguistica alpina virtuale, dovremmo ricordare questo bell’aneddoto e invertire la sentenza in modo positivo:

Possible only by FAIR means!

Perché la sigla FAIR, lanciata da una importante iniziativa (🔗) ,  identifica quattro principi etici essenziali per la ricerca virtuale e in particolare per l’umanistica digitale (🔗). Essi esigono che i dati siano:

  • F_indable (rintracciabili),
  • A_ccessible (accessibili),
  • I_nteroperable (scambiabili),
  • R_eusable (riutilizzabili).

Nella parte iniziale della presente relazione verranno contestualizzati tali postulati e verranno poi presentate le modalità con cui il progetto di ricerca VerbaAlpina (= VA) cerchi di applicarli.

La comunicazione scientifica nel web

I principi FAIR sono fondati sul modo in cui funziona (o meglio, in cui dovrebbe funzionare)  la comunicazione e quindi la cooperazione scientifica nell’era dei media digitali. Prima della disponibilità generale di internet, nella ormai lontana, cosiddetta galassia Gutenberg, la comunicazione scientifica era dipendente dalla presenza materiale dei libri cartacei. Ogni forma di cooperazione era pertanto indiretta, compromessa da ostacoli fisici. È possibile affermare che la cooperazione a livello scientifico era mediata dai testi stampati ma non era ancora mediale in sé. Internet ci offre adesso una cornice totalmente nuova con bellissime opzioni di collaborazione. Ciò esige però anche l’adozione di alcune regole elementari (🔗). Va inoltre detto, perché non è ovvio, che i quattro principi operano ai livelli delle comunicazioni puramente elettronica: da un lato solo tra computer (machine readable) e dall’altro tra uomini e computer (human readable) .

Un ambiente di ricerca concepito per il web

Le discipline umanistiche tradizionali si stanno dunque trasferendo al web e il nostro compito è quello di guidare questo processo di addatamento mediale  per quanto possibile – tramite strategie metodologiche del nostro lavoro poiché è ovvio che trasferire ad esempio la dialettologia e la linguistica non vuol dire conservarla al cento per cento. Pare inevitabile rinunciare a certe tradizioni anche costitutive, come ad esempio, le tradizioni discorsive separate (atlante, dizionario, testo analitico, corpus ecc.), perché la forma adeguata alle esigenze  mediali è quella dell'ambiente di ricerca multifunzionale.

VerbaAlpina distingue cinque ambiti complementari e strettamente intrecciati (🔗) ossia:  

  • documentazione;
  • pubblicazione;
  • cooperazione;
  • rilevamento dati;
  • laboratorio di ricerca.

Attualmente siamo impegnati a ottimizzare la corrispondenza degli ambiti con i principi FAIR.

FAIRness della pubblicazione

Internet in sé non è altro che una gigantesca macchina di pubblicazione che ‘pubblica’, per essere precisi, in un senso molto più ampio rispetto ai testi scientifici stampati: su internet vengono messi a disposizione degli utenti

  • contenuto semantico (forme dialettali, testi scientifici),
  • metadati,
  • software e codice (🔗).

VA produce pubblicazioni fisse perché la piattaforma è periodicamente ‘congelata’ dopo 6 mesi ca.; ne risultano delle versioni controllate e stabili (🔗), che sole dovrebbero essere citate.  E' importante notare che una nuova versione si aggiunge a quella precedente senza sostituirla: tutte le versioni restano quindi memorizzate in modo da garantire riferimenti e citazioni permanenti. Al di là delle versioni citabili esiste una versione di lavoro (detta versione xxx, accessibile soltanto per gli utenti registrati) che subisce ogni tanto delle modifiche.

Inoltre le versioni di verbaAlpina sono identificabili tramite un DOI attribuito dalla biblioteca universitaria della Ludwig-Maximilians-Universität di Monaco di Baviera http://dx.doi.org/10.5282/verba-alpina. Pertanto VA è rintracciabile nei cataloghi delle biblioteche (🔗 ).

Allo stesso modo sono identificabili i contributi tematici particolari pubblicati sul sito di VA nelle rubriche lessico alpino, metodologia, contributi; questi contributi ricevono automaticamente un DOI e possono quindi essere citati direttamente, ad es.: Krefeld, T. / Lücke, S.: s.v. “butyru(m)”, in: VA-it 18/1, Lexicon alpinum, http://dx.doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D176%26db%3D181%23B128.

A livello tecnico tale processo funziona tramite un export dei file VA in un repositorio della biblioteca universitaria open data lmu dove vengono attribuiti metadati secondo il formatto datacite. Questa esportazione dei file, la quale si ripete con ogni nuova versione VA, garantisce l'accessibilità e il riutilizzo dei dati dopo la fine dei lavori progettuali attivi, quando il finanziamento scadrà.

Una funzione simile vienw eseguita dall'URN (http://nbn-resolving.de/urn:nbn:de:bvb:19-verba-alpina-8), il quale è rappresentato da un codice registrato dalla Deutsche Nationalbibliothek di Francoforte. Infine anche il codice sorgente programmato da VA è rintracciabile e accessibile al sito github.

Occorre aggiungere due osservazioni che riguardano l’accessibilità e la possibilità di rintracciare i dati pubblicati in tutti gli ambìti.

  1. Coesistono diversi schemi di metadati, e pare opportuno non concentrarsi su uno solo. Accanto a datacite, VA fa anche parte di una iniziativa complementare (GeRDI) sviluppata dal centro di informatica di Monaco (LRZ) con l'intenzione di collegare dati di discipline diverse ma con attributi comuni, ad esempio georeferenziazioni o cronoreferenziazioni.
  2. A parte gli schemi dei metadati che si riferiscono ai dati particolari del progetto è consigliabile inserire dati normativi o identifcatori esistenti anche al di là del progetto. VerbaAlpina utilizza da poco gli identificatori della funzione wikidata; essi forniscono referenze extralinguistiche – quindi onomasiologiche – condivisi dagli articoli in lingue diverse (spesso numerevoli) sullo stesso argomento: quando un qualsiasi articolo wikipedia è aperto, ad esempio burro, appare sul bordo sinistro il pulsante elemento wikidata. Un click rinvia all'identificatore Q34172, cioè all'elemento che tutti i 133 articoli su questo prodotto hanno in comune. Allora è chiaro che un motore che ricerca questo identificatore può rintracciare tutti i file in internet collegati, ad esempio tutte le designazioni dialettali di burro disponibili nel database VA. Lo stesso va assolutamento elaborato per tipi lessicali (LID), e anche per categorie grammaticali (ad es. 1. pers. sing. pres.) e cosí via.

FAIRness della documentazione

VA raccoglie forme dialettali innanzitutto lessicali e etnograficamente alpine, dalle quattro famiglie linguistiche più importanti dell’Europa, cioè quella romanza, germanica e slava. Il materiale è strutturato e annotato sistematicamente secondo criteri semasiologici (tipi morfo-lessicali, tipi di base)  e onomasiologici (concetti); esistono almeno due accessi ai siti appena precisati, uno leggibile elettronicamente e uno leggibile umanamente, sotto forma di carta interattiva. La strutturazione dei dati fornisce allo stesso tempo dei filtri per selezionare mappe interattive; la carta interattiva offre inoltre la possibiltà di condividere una cartina selezionata grazie al pulsante Share This che attribuisce un URL alla mappa selezionata; cf. le designazioni disponibili per il concetto BURRO. Il condividere è un modo elementare di esportazione fattibile per tutti gli utenti, senza conoscenze tecniche.

Il materiale raccolto proviene grosso modo da due fonti. La parte più importane è stata ricavata da atlanti e dizionari stampati o in corso di stampo (come ad esempio dal Sprachatlas von Oberösterreich, ancora incompiuto; cf. la rete degli informanti SAO); l'altra parte risulta dall'ambito crowdsourcing (vd. sotto). Va sottolineato che VA riesce così a rendere accessibili, rintracciabili e sistematicamente riutilizzabili le attestazioni a lungo ‘dormienti’ lungo nelle opere stampate (cf. un esempio dell'AIS, perché è previsto (e quasi realizzato) attribuire un DOI a ogni singola forma disponibile nel database di VA

FAIRness della cooperazione

VA è sostenuto da numerosi progetti partner e la cooperazione ha senz'altro un bel potenziale. In realtà però dipende assolutamente dalla interscambiabilità (interoperability) dei dati. Si sono rivelati esemplari gli scambi con ALD I e ALD II (vd. la rete degli informanti ALD), i cui dati si lasciavano facilmente convertire (cf. l'esempio [smalz|https://www.verba-alpina.gwi.uni-muenchen.de/it/?page_id=27&noredirect=it_IT&tk=90&db=162]]). Ancora più istruttiva è stata la collaborazione con l'ALTR  che rappresenta già la rielaborazione virtuale di cinque lessici dialettali stampati; tramite l'inserimento (parziale, ovviamente) a VA appaiono sulle carte interattive nel continuum dialettale alpino (cf. ad es. una attestazione di smalzaia).

D'altro canto si è dimostrato anche il carattere intercambiabile del codice VA, il quale verrà utilizzato da un progetto geolinguistico della Francia settentrionale, cioè da Verba Picardia, curato da Pascale Renders dell'Università di Lille.

FAIRness del crowdsourcing

La funzione crowdsourcing  si indirizza esplicitamente  a parlanti, prevalentemente non esperti di linguistica, invitandoli a fornire dati linguistici. È quindi presupposta l'accessibilità di due categorie dei dati VA, ossia i communi georeferenziati e i concetti. Ma già a questo livello della comunicazione con non esperti si apre la possibilità di uno scambio dei dati, perché l'utente ha la possibilità di proporre concetti inesistenti.