Metodologia

Selezione

Mostrare tutti i contributi

A   B  C   D   E   F   G   H  I   J  K  L   M   N   O   P   Q  R   S   T   U   V   W  X  Y  Z 


Tipizzazione  (Citazione)

La tipizzazione dei dati linguistici georeferenziati fa parte delle esigenze fondamentali del progetto VerbaAlpina. Per questo vengono estratti, per quanto possibile, in un primo passo dei tokens ('parole singole') dopo la trascrizione dei dati d'input. Questi vengono poi inseriti nella casella omonima di database.

L'interesse centrale di VerbaAlpina è la tipizzazione morfologica del materiale linguistico raccolto. Un tipo morfologico viene definito tramite la concordanza delle proprietà seguenti: famiglia linguistica – parte del discorso – parola semplice versus parola affissa – genere – tipo di base lessicale. La forma indicata del tipo morfologico si orienta ai lemmi corrispondenti di certi dizionari scelti (v.s.).

Tramite l'assegnazione a un tipo di base lessicale comune diventa chiara la parentela di tutti i tipi morfo-lessicali uniti – anche oltre i confini linguistici. In tal modo i sostantivi e verbi seguenti (che qui non sono descritti in dettaglio) si possono assegnare a un unico tipo di base: malga (ALPEGGIO, MANDRIA, GREGGE), malgaro (CACIAIO), malghese (PASTORE), immalgare (INALPARE), dismalgare (DISALPARE). Il tipo di base lessicale non dice però nulla sulla storia della parola dei singoli tipi morfo-lessicali: deve quindi essere enucleato ogni volta prima separatamente se un tipo con etimo latino-romanzo che oggi è attestato nell'area germanofona o slovena, come p.es. sloveno bajta 'casa semplice', risale al vecchio sostrato locale o a un contatto romanzo più recente. Perciò viene evitata in questo contesto la denominazione "etimo" che si riferisce di principio alla lingua immediatamente precedente dalla quale deriva una parola storicamente – e non alla sua origine più remota. Tuttvia, in molti casi il tipo di base lessicale è in effetti anche l'etimo di un tipo morfo-lessicale.

I tipi morfo-lessicali costituiscono la categoria centrale nella gestione dei dati linguistici; sono comparabili ai lemmi della lessicografia. Attraverso i succitati criteri robusti e ben misurabili si possono ridurre p.es. i quattro tipi fonetici barga, bark, margun, bargun con il significato CASCINA DI MONTAGNA, STALLA D'ALPEGGIO a tre tipi morfo-lessicali:





L'appartenenza dei tipi morfo-lessicali a famiglie linguistiche (germ., rom., slav.) dipende dalla fonte in questione: risulta nel caso dei dati di atlanti o dizionari, rilevati tradizionalmente, automaticamente tramite gli informanti corrispondenti e viene annotata conformemente nel database. Nel caso dei dati che VerbaAlpina rileva tramite crowdsourcing l'appartenenza linguistica risp. dialettale viene affermata dagli informanti stesso e confermata nel caso ideale quantitativamente da altri informanti; il numero d coloro che confermano un'appartenenza linguistica diventa così uno strumento di convalida dei dati.

Tipi morfo-lessicali sono limitati a una famiglia linguistica. Ne risulta la domanda seguente: quale forma è idonea per rappresentare un tipo morfo-lessicale nella funzione di ricerca della carta interattiva. Riguardo alle famiglie linguistiche germanica e slava la risposta è piuttosto facile perché tutte e due sono rappresentate soltanto da una lingua standard ('Deutsch' [deu] risp. 'Slowenisch' [slo]). I tipi morfo-lessicali possono quindi essere rappresentati in forma delle loro varianti standard, ovviamente a condizione che esistano corrispondenze del tipo nella lingua standard. Così per esempio per il concetto FORMAGGIO tutti i tipi fonetici corrispondenti dell'alemannico e del bavarese possono essere cercati tramite la forma standard . Nel caso in cui non esistono delle varianti standard, ci si riferisce ai lemmi dei grandi dizionari dialettali (Idiotikon, WBÖ).

Nel caso della famiglia linguistica romanza la situazione è molto più complessa a causa delle numerose lingue piccole non standardizzate in modo sufficiente. Per ragioni pragmatiche è stato scelto la soluzione seguente: tutti i tipi morfo-lessicali vengono rappresentati dalle forme standard francesi e italiane a meno che esistano. Così per esempio tutti i tipi fonetici corrispondenti possono essere cercati tramite p.es. beurre/burro; come dizionari di riferimento servono TLF e Treccani. Se solo una delle due lingue standard possiede una variante corrispondente appare solo questa, come nel caso di (l'appartenenza all'italiano viene indicata attraverso la convenzione di notazione -/ricotta). Se non esiste nessuna variante del tipo nelle due lingue romanze di riferimento, ci si rinvia a un grande dizionario dialettale, come p.es. al LSI. Nel caso che non esistano lemmi affidabili nei dizionari dialettali VerbaAlpina propone una propria rappresentazione grafica del tipo in questione segnata con 'VA'.

È prevista anche la tipizzazione fonetica del materiale linguistico; questo passo è però periferico e non viene realizzato in forma conseguente per questo. La categoria del tipo fonetico è però indispensabile soprattutto perché certi atlanti linguistici (p.es. SDS e VALTS) e i dizionari in genere documentano talvolta (atlanti) o esclusivamente (dizionari) dei tipi fonetici. I tokens vengono classificati secondo criteri della fonetica storica in tipi fonetici (casella di database 'phon_typ') se la tipizzazione fonetica è fatta da VerbaAlpina. L'automazione della tipizzazione fonetica sulla base di algoritmi Levenshtein e soundex viene esaminata e se possibile realizzata.

Attraverso la tipizzazione (costituzione di classi) la molteplicità di dati diventa sempre più chiara; vale dunque la regola: numero dei tokens > numero dei tipi fonetici > numero dei tipi morfo-lessicali > tipo di base. Non è però escluso il caso estremo di una sola attestazione (hapax) che corrisponde a un token, un solo tipo fonetico e un tipo morfo-lessicale come unico rappresentante di un tipo di base. Eventualmente avrà senso filtrare tali forme di hapax dalla rappresentazione.

(auct. Thomas Krefeld | Stephan Lücke – trad. Susanne Oberholzer)

Tags: Linguistica



Trascrizione  (Citazione)

I materiali linguistici vengono resi in doppia forma grafica per essere all'altezza dei due principi opposti della fedeltà alle fonti e della facile comparabilità:

(1) Versione input nella trascrizione originale
Nel portale di VerbaAlpina vengono riunite delle fonti che derivano da diverse tradizioni scientifiche (romanistica, germanistica, slavistica) e rappresentano delle fasi storicamente diverse della ricerca dialettologica; alcuni dati lessicografici sono stati rilevati all'inizio del secolo scorso (GPSR) e altri solo pochi anni fa (ALD). Per questo è necessario dal punto di vista storico e epistemologico rispettare la trascrizione originale nel miglior modo possibile. Per ragioni tecniche è però impossibile mantenere certe convenzioni in modo invariato. Questo vale soprattutto per le combinazioni verticali di carattere di base ('lettera') e segni diacritici come per esempio quando un segno per l'accento è posizionato sopra un carattere di lunghezza sopra una vocale sopra un diacritico di chiusura (Codice beta). Queste convenzioni vengono trasferite in sequenze lineari di caratteri secondo trascrizioni tecniche definite specialmente per ogni convenzione utilizzando esclusivamente caratteri ASCII (il cosiddetto codice beta). Facendo la codifica beta si può approfittare fino a un certo punto delle somiglianze grafiche intuitivamente comprensibili tra diacritici originali e le corrispondenze ASCII da noi scelte; sono mnemonicamente vantaggiose.

(2) Versione output in IPA
Pensando alla comparabilità e anche alla facilità d'uso è inoltre desiderabile l'output dei dati in una trascrizione unificata. Tutti i codici beta saranno per questo trasferiti in segni IPA attraverso routine di sostituzione specifiche. Un paio di problemi inevitabili nasce per i casi dove a un carattere di base specificato attraverso diacritici nella trascrizione input corrispondono due caratteri di base diversi in IPA. Questo vale soprattutto riguardo al grado di apertura delle vocali dove per esempio i due caratteri di base <i> e <e> in combinazione con il punto di chiusura e uno o due uncini di apertura permettono di rappresentare sei diversi gradi di apertura nella serie palatale; nella codifica beta sono i seguenti: i – i( – i((– e?-- e – e(– e((. Per rendere questi, IPA dispone soltanto di quattro caratteri di base: i – ɪ – e – ɛ.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Linguistica Tecnologia dell'informazione