L'interesse centrale di VerbaAlpina è la tipizzazione morfologica del materiale linguistico raccolto. Un tipo morfologico viene definito tramite la concordanza delle proprietà seguenti: famiglia linguistica – parte del discorso – parola semplice versus parola affissa – genere – tipo di base lessicale. La forma indicata del tipo morfologico si orienta ai lemmi corrispondenti di certi dizionari scelti (v.s.).
Tramite l'assegnazione a un tipo di base lessicale comune diventa chiara la parentela di tutti i tipi morfo-lessicali uniti – anche oltre i confini linguistici. In tal modo i sostantivi e verbi seguenti (che qui non sono descritti in dettaglio) si possono assegnare a un unico tipo di base: malga (ALPEGGIO, MANDRIA, GREGGE), malgaro (CACIAIO), malghese (PASTORE), immalgare (INALPARE), dismalgare (DISALPARE). Il tipo di base lessicale non dice però nulla sulla storia della parola dei singoli tipi morfo-lessicali: deve quindi essere enucleato ogni volta prima separatamente se un tipo con etimo latino-romanzo che oggi è attestato nell'area germanofona o slovena, come p.es. sloveno bajta 'casa semplice', risale al vecchio sostrato locale o a un contatto romanzo più recente. Perciò viene evitata in questo contesto la denominazione "etimo" che si riferisce di principio alla lingua immediatamente precedente dalla quale deriva una parola storicamente – e non alla sua origine più remota. Tuttvia, in molti casi il tipo di base lessicale è in effetti anche l'etimo di un tipo morfo-lessicale.
I tipi morfo-lessicali costituiscono la categoria centrale nella gestione dei dati linguistici; sono comparabili ai lemmi della lessicografia. Attraverso i succitati criteri robusti e ben misurabili si possono ridurre p.es. i quattro tipi fonetici barga, bark, margun, bargun con il significato CASCINA DI MONTAGNA, STALLA D'ALPEGGIO a tre tipi morfo-lessicali:

L'appartenenza dei tipi morfo-lessicali a famiglie linguistiche (germ., rom., slav.) dipende dalla fonte in questione: risulta nel caso dei dati di atlanti o dizionari, rilevati tradizionalmente, automaticamente tramite gli informanti corrispondenti e viene annotata conformemente nel database. Nel caso dei dati che VerbaAlpina rileva tramite crowdsourcing l'appartenenza linguistica risp. dialettale viene affermata dagli informanti stesso e confermata nel caso ideale quantitativamente da altri informanti; il numero d coloro che confermano un'appartenenza linguistica diventa così uno strumento di convalida dei dati.
Tipi morfo-lessicali sono limitati a una famiglia linguistica. Ne risulta la domanda seguente: quale forma è idonea per rappresentare un tipo morfo-lessicale nella funzione di ricerca della carta interattiva. Riguardo alle famiglie linguistiche germanica e slava la risposta è piuttosto facile perché tutte e due sono rappresentate soltanto da una lingua standard ('Deutsch' [deu] risp. 'Slowenisch' [slo]). I tipi morfo-lessicali possono quindi essere rappresentati in forma delle loro varianti standard, ovviamente a condizione che esistano corrispondenze del tipo nella lingua standard. Così per esempio per il concetto FORMAGGIO tutti i tipi fonetici corrispondenti dell'alemannico e del bavarese possono essere cercati tramite la forma standard
Nel caso della famiglia linguistica romanza la situazione è molto più complessa a causa delle numerose lingue piccole non standardizzate in modo sufficiente. Per ragioni pragmatiche è stato scelto la soluzione seguente: tutti i tipi morfo-lessicali vengono rappresentati dalle forme standard francesi e italiane a meno che esistano. Così per esempio tutti i tipi fonetici corrispondenti possono essere cercati tramite p.es. beurre/burro; come dizionari di riferimento servono TLF e Treccani. Se solo una delle due lingue standard possiede una variante corrispondente appare solo questa, come nel caso di
È prevista anche la tipizzazione fonetica del materiale linguistico; questo passo è però periferico e non viene realizzato in forma conseguente per questo. La categoria del tipo fonetico è però indispensabile soprattutto perché certi atlanti linguistici (p.es. SDS e VALTS) e i dizionari in genere documentano talvolta (atlanti) o esclusivamente (dizionari) dei tipi fonetici. I tokens vengono classificati secondo criteri della fonetica storica in tipi fonetici (casella di database 'phon_typ') se la tipizzazione fonetica è fatta da VerbaAlpina. L'automazione della tipizzazione fonetica sulla base di algoritmi Levenshtein e soundex viene esaminata e se possibile realizzata.
Attraverso la tipizzazione (costituzione di classi) la molteplicità di dati diventa sempre più chiara; vale dunque la regola: numero dei tokens > numero dei tipi fonetici > numero dei tipi morfo-lessicali > tipo di base. Non è però escluso il caso estremo di una sola attestazione (hapax) che corrisponde a un token, un solo tipo fonetico e un tipo morfo-lessicale come unico rappresentante di un tipo di base. Eventualmente avrà senso filtrare tali forme di hapax dalla rappresentazione.
(auct. Thomas Krefeld | Stephan Lücke – trad. Susanne Oberholzer)
Tags: Linguistica