Metodologia

Selezione

Mostrare tutti i contributi

A   B  C   D   E   F   G   H  I   J  K  L   M   N   O   P   Q  R   S   T   U   V   W  X  Y  Z 


Terminologia (CITAZIONE)



Tags: Linguistica Tecnologia dell'informazione Pagina Web



Tipizzazione (CITAZIONE)

La tipizzazione dei dati linguistici georeferenziati fa parte delle esigenze fondamentali del progetto VerbaAlpina. Per questo motivo, dopo la trascrizione dei dati input, in un primo momento vengono estrapolati per quanto possibile dei tokens ('parole singole'), i quali vengono poi inseriti nell'omonima tabella nel database.

L'interesse centrale di VerbaAlpina è la tipizzazione morfologica del materiale linguistico raccolto. Un tipo morfologico viene definito tramite la concordanza delle seguenti proprietà: famiglia linguistica – parte del discorso – parola semplice VS parola affissa – genere – tipo di base lessicale. La forma indicata del tipo morfologico si orienta ai corrispondenti lemmi presenti nei dizionari presi come riferimento dal progetto (si veda sotto).

Tramite l'assegnazione ad un comune tipo di base lessicale, risulta chiara la parentela di tutti i tipi morfo-lessicali uniti oltre i confini linguistici. È così che i seguenti sostantivi e verbi (qui non descritti in dettaglio) possono essere assegnati ad un unico tipo di base: malga (ALPEGGIO, MANDRIA, GREGGE), malgaro (CACIAIO), malghese (PASTORE), immalgare (INALPARE), dismalgare (DISALPARE).
Il tipo di base lessicale non dice, però, nulla sulla storia della parola dei singoli tipi morfo-lessicali: è dunque necessario chairire separatamente e di volta in volta, se ad esempio un tipo con etimo latino-romanzo, oggi attestato nell'area germanofona o slovena, risalga al vecchio sostrato locale o a un contatto romanzo più recente, come accade con il termine sloveno bajta 'casa semplice'. A motivo di ciò viene evitata in questo contesto la denominazione "etimo", il quale si riferisce di norma alla lingua immediatamente precedente, dalla quale deriva storicamente una parola – e non alla sua origine più remota. Ciononostante, in molti casi il tipo di base lessicale corrisponde in effetti anche all'etimo di un tipo morfo-lessicale.
I tipi di base definiti come sconosciuti o come controversi nei dizionari di riferimento, vengono ulteriormente contrassegnati tramite un punto interrogativo come nel caso di: (?) battuere. Se in un processo di tipizzazione non è possibile classificare un tipo di base, VerbaAlpina impiegherà un tipo sconosciuto contrassegnato da un ''?''.

I tipi morfo-lessicali costituiscono la categoria centrale nella gestione dei dati linguistici e sono comparabili ai lemmi della lessicografia. Attraverso i suddetti ben misurabili criteri si possono ridurre, per esempio, i quattro tipi fonetici barga, bark, margun, bargun con il significato di CASCINA DI MONTAGNA, STALLA D'ALPEGGIO a tre tipi morfo-lessicali:





L'appartenenza dei tipi morfo-lessicali alle famiglie linguistiche (germanica, romanza, slava) dipende dalla fonte in questione: risulta automaticamente nel caso dei dati di atlanti o dizionari, rilevati tradizionalmente tramite gli informanti corrispondenti e viene conformemente annotata nel database. Nel caso dei dati che VerbaAlpina rileva tramite crowdsourcing, l'appartenenza linguistica o dialettale viene affermata dagli informanti stessi e nel migliore dei casi confermata quantitativamente da altri informanti; il numero di coloro che confermano un'appartenenza linguistica diventa così uno strumento di convalida dei dati.

I tipi morfo-lessicali sono limitati ad una famiglia linguistica. Una domanda sorge spontanea: qual è la forma idonea per rappresentare un tipo morfo-lessicale nella funzione di ricerca della carta interattiva? Per le famiglie linguistiche germanica e slava la risposta è piuttosto semplice, perché tutte e due sono rappresentate soltanto da una lingua standard (rispettivamente 'Deutsch' [deu] e 'Slowenisch' [slv]): i tipi morfo-lessicali possono quindi essere rappresentati attraverso le loro varianti standard (ovviamente a condizione che in quest'ultima esistano corrispondenze del tipo). Così per esempio per il concetto di FORMAGGIO, tutti i tipi fonetici corrispondenti all'alemannico e al bavarese possono essere cercati tramite la forma standard . Nel caso in cui non esistano delle varianti standard, è possibile fare riferimento ai lemmi presenti nei grandi dizionari dialettali (Idiotikon, WBOE).

Nel caso della famiglia linguistica romanza la situazione è molto più complessa a causa delle numerose piccole lingue non standardizzate a sufficienza. Per ragioni pragmatiche, è stata scelta la seguente soluzione: tutti i tipi morfo-lessicali vengono rappresentati dalle forme standard francesi e italiane, se esistenti. Così, per esempio tutti i tipi fonetici corrispondenti possono essere cercati tramite beurre/burro; TLF e Treccani sono qui presi come dizionari di riferimento. Se solo una delle due lingue standard possiede una variante corrispondente, è tale variante ad apparire sulla carta, come nel caso di ricotta (l'appartenenza all'italiano viene indicata attraverso la convenzione di notazione -/ricotta). Se nessuna variante del tipo esiste nelle due lingue romanze di riferimento, si rinvia l'utente ad un grande dizionario dialettale, come per esempio l'LSI. Nel caso in cui non esistano lemmi affidabili nei dizionari dialettali, VerbaAlpina propone una propria rappresentazione grafica del tipo in questione, indicata con 'VA'.

Il progetto prevede, inoltre, una tipizzazione fonetica del materiale linguistico; questo processo è però periferico e non viene realizzato con costanza. La categoria del tipo fonetico è tuttavia indispensabile soprattutto perché alcuni atlanti linguistici (per esempio SDS e VALTS) e i dizionari in generale, documentano talvolta (atlanti) o esclusivamente (dizionari) i tipi fonetici. I tokens vengono classificati secondo i criteri della fonetica storica in tipi fonetici (casella di database 'phon_typ'), quando la tipizzazione fonetica è realizzata da VerbaAlpina.

Ecco un esempio caratteristico offerto dall'AIS (AIS 1204 LA PANNA | RAHM | CRÈME):



Conformemente alla fonetica, è necessario operare una distinzione tra le varianti iniziali [kr-] e [gr-] e le varianti delle vocali toniche [a], [e] e [o] che precedono la [m]. Così facendo, sembra di avere a che fare con 'tipi fonetici' diversi. È chiaro, in realtà, che queste sono varianti fonetiche di un unico tipo morfo-lessicale, come dimostrato dagli innumerevoli casi di cambiamento fonetico analoghi a questo. Tuttavia, non c'è alcuna evidenza di uno spostamento da [kr-] > [br-], e sarebbe quindi poco sensato pensare di far rientrare in questo gruppo la corrispondente forma (brama) attestata nel ladino delle Dolomiti. Nonostante la somiglianza con la vocale tonica e con l'ultima sillaba [-ama], essa rappresenta infatti un altro tipo morfo-lessicale:



Un'automazione della tipizzazione fonetica sulla base degli algoritmi di Levenshtein e Soundex viene esaminata e, se possibile, realizzata; ogni caso specifico esige, tuttavia, un ampio lavoro di correzione. Nel processo di trasformazione da una forma all'altra (secondo il parametro della distanza di Levenshtein), entrambe le forme krama e gromma, storicamente collegate tra loro, si distinguono per un maggiore numero di segni sostituiti rispetto alle forme krama e brama, al contrario non collegate tra loro.





Attraverso la tipizzazione (costituzione di classi), la molteplicità dei dati raccolti diventa sempre più chiara; vale dunque la regola: numero dei tokens > numero dei tipi fonetici > numero dei tipi morfo-lessicali > tipo di base. Non è però escluso il caso estremo di una sola attestazione (hapax) che corrisponde ad un token, ad un solo tipo fonetico e ad un tipo morfo-lessicale come unico rappresentante di un tipo di base. Gli Hapax verranno dunque filtrati dalla rappresentazione.


(auct. Thomas Krefeld | Stephan Lücke – trad. Alessia Brancatelli | Susanne Oberholzer)

Tags: Linguistica



Trascrizione (CITAZIONE)

I materiali linguistici vengono resi in doppia forma grafica per fare fronte a due principi: la fedeltà alle fonti e una facile comparabilità.

(1) Versione input nella trascrizione originale
Nel portale di VerbaAlpina vengono riunite delle fonti che derivano da diverse tradizioni scientifiche (romanistica, germanistica, slavistica) e rappresentano delle fasi storicamente diverse della ricerca dialettologica; alcuni dati lessicografici sono stati rilevati all'inizio del secolo scorso (GPSR) e altri solo pochi anni fa (ALD). Per questo, dal punto di vista storico e epistemologico, è necessario rispettare la trascrizione originale nel miglior modo possibile. Per ragioni tecniche è però impossibile mantenere certe convenzioni in modo invariato. Questo vale soprattutto per le combinazioni verticali di carattere di base ('lettera') e segni diacritici, come per esempio quando un segno per l'accento è posizionato sopra un carattere di lunghezza sopra una vocale sopra un diacritico di chiusura (Codice beta). Queste convenzioni vengono trasferite in sequenze lineari di caratteri secondo trascrizioni tecniche definite in maniera particolare per ogni convenzione utilizzando esclusivamente caratteri ASCII (il cosiddetto codice beta). Utilizzando la codifica beta si può approfittare, almeno in parte, delle somiglianze grafiche intuitivamente comprensibili tra diacritici originali e le corrispondenze ASCII da noi scelte in quanto mnemonicamente vantaggiose.

(2) Versione output in IPA
Pensando alla comparabilità e anche alla facilità d'uso, in una trascrizione unificata, è inoltre auspicabile l'output dei dati. Tutti i codici beta saranno per questo trasferiti in segni IPA attraverso routine di sostituzione specifiche. Alcuni problemi inevitabili nascono per i casi dove a un carattere di base specificato attraverso diacritici nella trascrizione input, corrispondono due caratteri di base diversi in IPA. Questo vale soprattutto per il grado di apertura delle vocali dove per esempio i due caratteri di base <i> e <e>, in combinazione con il punto di chiusura e uno o due uncini di apertura, permettono di rappresentare sei diversi gradi di apertura nella serie palatale; nella codifica beta sono i seguenti: i – i( – i((– e?-- e – e(– e((. Per rendere caratteri, IPA dispone soltanto di quattro caratteri di base: i – ɪ – e – ɛ.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Linguistica Tecnologia dell'informazione