Metodologia

Selezione

Mostrare tutti i contributi

A   B  C   D   E   F   G   H  I   J  K  L   M   N   O   P   Q  R   S   T   U   V   W  X  Y  Z 


Terminologia (CITAZIONE)

Tedesco Francese Italiano romancio sloveno
(Beleg)Raster la grille la griglia la griglia raster jazikovnih dokazov
Almwesen l'alpage l'alpeggio l'economia d'alp planinstvo
Alpenraum la région alpine la regione alpina la regiun alpina alpska pokrajina
ASCII-Bereich le bloc ASCII il repertorio ASCII il sectur ASCII območje ASCII
ASCII-Zeichen le caractère ASCII il carattere ASCII il segn ASCII znak ASCII
Attribut l'attribut l'attributo l'attribut atribut
Beta-Kodierung l'encodage beta la codifica beta la codaziun beta kodiranje beta
Betacode le beta code il codice beta il code beta kod beta
Betriebssystem le système d'exploitation il sistema operativo il sistem operativ operacijski sistem
chronoreferenziert chronoréférencé cronoreferenziato cronoreferenzià kronološko referenciran
Codepage la page de code il codepage la pagina da codes kodna stran
Crowdsourcing le crowdsourcing il crowdsourcing il crowdsourcing crowdsourcing
Daten les données i dati las datas podatki
Datenbank la base de données il database la banca da datas podatkovna zbirka
Datenbankmanagementsystem le système de gestion de base de données il sistema di gestione di banca-dati il sistem d'administraziun da la banca da datas sistem za upravljanje zbirk podatkov
Datenerhebung l'enquête des données il rilevamento dati la relevaziun da datas raziskava podatkov
Datensatz l'enregistrement il record l'acta podatkovni zapis
Digital Humanities les humanités numériques l'informatica umanistica las scienzas umanas digitalas digitalna humanistika
digitale Datenerfassung la saisie digitale de données il rilevamento digitale la registraziun da datas digitala digitalno zbiranje podatkov
digitale Tiefenerschliessung l'exploitation digitale en profondeur l'esplorazione digitale a fondo l'accessibladad digitala a fund digitalno globinsko urejanje
Digitalisierung la numérisation la digitalizzazione la digitalisaziun digitalizacija
dingliches Trägermedium le support d'information matériel il supporto analogico o digitale il medium da support concret stvarni nosilec
dokumentieren témoigner documentare documentar dokumentirati
Eigenschaft proprieté il campo dato la caracteristica lastnost
eindeutig univoquement univocamente univocamain nedvoumno
elektronische Datenverarbeitung le traitement électronique des données l'elaborazione dati elettronica l'elavuraziun da datas electronica elektronska obdelava podatkov
Entity-Relationship-Modell le modèle entité-association il modello entità-relazione il model entitad-relaziun entitetni-odnosni model
Erhebung l'enquête il rilevamento la relevaziun raziskava
Erhebungsort le lieu de l'enquête il punto d'inchiesta il lieu da relevaziun kraj raziskave
Exportformat le format d'exportation il formato di esportazione il format d'export format eksporta
Feld la case la casella il champ polje
Ganzzahl l'entier relatif il numero intero il dumber entir celo število
Geokoordinate les coordonnées géographiques la coordinata geografica la geocoordinata geografska koordinata
Geolinguistik la géolinguistique la geolinguistica la geolinguistica geolingvistika
georeferenzierbar géoréférenciable georeferenziabile georeferenziabel ki ga je mogoče georeferencirati
georeferenziert géoréférencé georeferenziato georeferenzià georeferenciran
Georeferenzierung le géoréférencement la georeferenziazione la georeferenziaziun georeferenciranje
Identifikator l'identifiant l'identificatore l'identificatur identifikator
Informant l'informateur l'informante l'infurmant informator
Informationstechnologie la technologie de l'information la tecnologia dell'informazione la tecnologia d'infurmaziun informacijska tehnologija
Internet l'internet (m) l'internet (m) l'internet internet
IT-Firma des sociétés d'informatique imprese che si occupano di tecnologia dell'informazione la firma IT IT-podjetje
Kategorisierung la catégorisation la categorizzazione la categorisaziun kategorizacija
Kodierung le codage la codifica la codaziun kodifikacija
Kodierungstabelle le tableau de codage la tabella di codifica la tabella da codaziun kodirna tabela
Konvertierung une conversion una conversione la conversiun konvertiranje
Konzept le concept il concetto il concept osnutek
Kooperationspartner le partenaire de coopération il partner di cooperazione il partenari da collavuraziun kooperacijski partnerji
Langzeitarchivierung l'archivage de longue durée l'archiviazione a lungo termine l'archivaziun a lunga durada dolgoročno arhiviranje
Medien les médias (m.) i media las medias mediji
Nutzer l'utilisateur l'utente l'utilisader uporabnik
Oberfläche l'interface la superficie la surfatscha površina
operativer Bereich le plan opérationnel il campo operativo il champ operativ operativno območje
Portal le portail un portale il portal portal
relationales Datenmodell le modèle relationnel il modello relazione il model (da datas) relaziunal relacijski model podatkov
Sachgebiet le domaine il campo il champ strokovno področje
Schnittstellenkonzept la conception d'interface il concetto di interfaccia il concept d'interfatschas osnutek vmesnika
Schriftzeichen le caractère il carattere il caracter črka
Separator le séparateur il separatore il separatur separator
Serialisierung la sérialisation la serializzazione la serialisaziun serializacija
Sicherheitskopie la copie de sûreté la copia di backup la copia da segirezza varnostna kopija
Social media les médias sociaux i media sociali las social media družabni mediji
social software le logiciel social il social software la software sociala družabna programska oprema
Software le logiciel il software la software programska oprema
Spalte (Tabelle) la colonne la colonna la colonna stolpec
Sprachdaten les données linguistiques i dati linguistici las datas linguisticas jezikovni podatki
Sprachfamilie la famille linguistique la famiglia linguistica la famiglia da linguas jezikovna družina
Sprachkontakt le contact linguistique il contatto linguistico il contact linguistic jezikovni kontakt
Sprecher le locuteur il parlante il pledader govorec
Strukturierung la structuration la strutturazione la structuraziun strukturiranost
Support le service d'assistance l'assistenza il support pomoč
Trennzeichen le délimiteur il delimitatore il segn da separaziun separator
Tupel le tuple la tupla il tupel terka
Umgebung (inform.) l'environnement l'ambiente il conturn okolje
Unicode-Bereich le bloc Unicode l'intervallo …. fino … di Unicode il sectur Unicode območje unicode
Unicode-Konsortium le Consortium Unicode lo Unicode Consortium il consorzi Unicode konzorcij unicode
Unicodetabelle le tableau Unicode la tabella Unicode la tabella Unicode tabela unicode
Unicodewert la valeur Unicode il valore Unicode la valur Unicode vrednost unicode
Varietätenkontakt le contact des variétés linguistiques il contatto di varietà linguistiche il contact da varietads linguisticas kontakt jezikovnih varjacij
Vermehrung (der Informanten) l'accroissement (des informateurs) l'aumento (degli informanti) l'augment (d'infurmants) pomnožitev (informatorjev)
Versionierung la gestion de versions il controllo versione la gestiun da la versiun spremljanje različic
Verwaltung la gestion l'amministrazione l'administraziun administracija
virtuelle Forschungsumgebung l'environnement de recherche virtuel l'ambiente di ricerca virtuale il conturn da perscrutaziun virtual virtualno raziskovalno okolje
Web le web il web il web splet
Web-Framework le framework d'application web il framework il framework per applicaziuns-web web framework
XML-Struktur la structure XML la struttura XML la structura XML struktura XML
Zeichenkodierung le codage de caractère la codifica di carattere la codaziun da caracter kodiranje znaka
Zeile (Tabelle) la ligne la riga la lingia vrsta
Zuordnung (in Tabellen) l'affectation l'associazione l'attribuziun razvrstitev


Tags: Linguistica Tecnologia dell'informazione pagina Web



Tipizzazione (CITAZIONE)

La tipizzazione dei dati linguistici georeferenziati fa parte delle esigenze fondamentali del progetto VerbaAlpina. Per questo motivo, dopo la trascrizione dei dati input, in un primo momento vengono estrapolati per quanto possibile dei tokens ('parole singole'), i quali vengono poi inseriti nell'omonima tabella nel database.

L'interesse centrale di VerbaAlpina è la tipizzazione morfologica del materiale linguistico raccolto. Un tipo morfologico viene definito tramite la concordanza delle seguenti proprietà: famiglia linguistica – parte del discorso – parola semplice VS parola affissa – genere – tipo di base lessicale. La forma indicata del tipo morfologico si orienta ai corrispondenti lemmi presenti nei dizionari presi come riferimento dal progetto (si veda sotto).

Tramite l'assegnazione ad un comune tipo di base lessicale, risulta chiara la parentela di tutti i tipi morfo-lessicali uniti oltre i confini linguistici. È così che i seguenti sostantivi e verbi (qui non descritti in dettaglio) possono essere assegnati ad un unico tipo di base: malga (ALPEGGIO, MANDRIA, GREGGE), malgaro (CACIAIO), malghese (PASTORE), immalgare (INALPARE), dismalgare (DISALPARE).
Il tipo di base lessicale non dice, però, nulla sulla storia della parola dei singoli tipi morfo-lessicali: è dunque necessario chairire separatamente e di volta in volta, se ad esempio un tipo con etimo latino-romanzo, oggi attestato nell'area germanofona o slovena, risalga al vecchio sostrato locale o a un contatto romanzo più recente, come accade con il termine sloveno bajta 'casa semplice'. A motivo di ciò viene evitata in questo contesto la denominazione "etimo", il quale si riferisce di norma alla lingua immediatamente precedente, dalla quale deriva storicamente una parola – e non alla sua origine più remota. Ciononostante, in molti casi il tipo di base lessicale corrisponde in effetti anche all'etimo di un tipo morfo-lessicale.
I tipi di base definiti come sconosciuti o come controversi nei dizionari di riferimento, vengono ulteriormente contrassegnati tramite un punto interrogativo come nel caso di: (?) battuere. Se in un processo di tipizzazione non è possibile classificare un tipo di base, VerbaAlpina impiegherà un tipo sconosciuto contrassegnato da un ''?''.

I tipi morfo-lessicali costituiscono la categoria centrale nella gestione dei dati linguistici e sono comparabili ai lemmi della lessicografia. Attraverso i suddetti ben misurabili criteri si possono ridurre, per esempio, i quattro tipi fonetici barga, bark, margun, bargun con il significato di CASCINA DI MONTAGNA, STALLA D'ALPEGGIO a tre tipi morfo-lessicali:





L'appartenenza dei tipi morfo-lessicali alle famiglie linguistiche (germanica, romanza, slava) dipende dalla fonte in questione: risulta automaticamente nel caso dei dati di atlanti o dizionari, rilevati tradizionalmente tramite gli informanti corrispondenti e viene conformemente annotata nel database. Nel caso dei dati che VerbaAlpina rileva tramite crowdsourcing, l'appartenenza linguistica o dialettale viene affermata dagli informanti stessi e nel migliore dei casi confermata quantitativamente da altri informanti; il numero di coloro che confermano un'appartenenza linguistica diventa così uno strumento di convalida dei dati.

I tipi morfo-lessicali sono limitati ad una famiglia linguistica. Una domanda sorge spontanea: qual è la forma idonea per rappresentare un tipo morfo-lessicale nella funzione di ricerca della carta interattiva? Per le famiglie linguistiche germanica e slava la risposta è piuttosto semplice, perché tutte e due sono rappresentate soltanto da una lingua standard (rispettivamente 'Deutsch' [deu] e 'Slowenisch' [slv]): i tipi morfo-lessicali possono quindi essere rappresentati attraverso le loro varianti standard (ovviamente a condizione che in quest'ultima esistano corrispondenze del tipo). Così per esempio per il concetto di FORMAGGIO, tutti i tipi fonetici corrispondenti all'alemannico e al bavarese possono essere cercati tramite la forma standard . Nel caso in cui non esistano delle varianti standard, è possibile fare riferimento ai lemmi presenti nei grandi dizionari dialettali (Idiotikon, WBOE).

Nel caso della famiglia linguistica romanza la situazione è molto più complessa a causa delle numerose piccole lingue non standardizzate a sufficienza. Per ragioni pragmatiche, è stata scelta la seguente soluzione: tutti i tipi morfo-lessicali vengono rappresentati dalle forme standard francesi e italiane, se esistenti. Così, per esempio tutti i tipi fonetici corrispondenti possono essere cercati tramite beurre/burro; TLF e Treccani sono qui presi come dizionari di riferimento. Se solo una delle due lingue standard possiede una variante corrispondente, è tale variante ad apparire sulla carta, come nel caso di ricotta (l'appartenenza all'italiano viene indicata attraverso la convenzione di notazione -/ricotta). Se nessuna variante del tipo esiste nelle due lingue romanze di riferimento, si rinvia l'utente ad un grande dizionario dialettale, come per esempio l'LSI. Nel caso in cui non esistano lemmi affidabili nei dizionari dialettali, VerbaAlpina propone una propria rappresentazione grafica del tipo in questione, indicata con 'VA'.

Il progetto prevede, inoltre, una tipizzazione fonetica del materiale linguistico; questo processo è però periferico e non viene realizzato con costanza. La categoria del tipo fonetico è tuttavia indispensabile soprattutto perché alcuni atlanti linguistici (per esempio SDS e VALTS) e i dizionari in generale, documentano talvolta (atlanti) o esclusivamente (dizionari) i tipi fonetici. I tokens vengono classificati secondo i criteri della fonetica storica in tipi fonetici (casella di database 'phon_typ'), quando la tipizzazione fonetica è realizzata da VerbaAlpina.

Ecco un esempio caratteristico offerto dall'AIS (AIS 1204 LA PANNA | RAHM | CRÈME):



Conformemente alla fonetica, è necessario operare una distinzione tra le varianti iniziali [kr-] e [gr-] e le varianti delle vocali toniche [a], [e] e [o] che precedono la [m]. Così facendo, sembra di avere a che fare con 'tipi fonetici' diversi. È chiaro, in realtà, che queste sono varianti fonetiche di un unico tipo morfo-lessicale, come dimostrato dagli innumerevoli casi di cambiamento fonetico analoghi a questo. Tuttavia, non c'è alcuna evidenza di uno spostamento da [kr-] > [br-], e sarebbe quindi poco sensato pensare di far rientrare in questo gruppo la corrispondente forma (brama) attestata nel ladino delle Dolomiti. Nonostante la somiglianza con la vocale tonica e con l'ultima sillaba [-ama], essa rappresenta infatti un altro tipo morfo-lessicale:



Un'automazione della tipizzazione fonetica sulla base degli algoritmi di Levenshtein e Soundex viene esaminata e, se possibile, realizzata; ogni caso specifico esige, tuttavia, un ampio lavoro di correzione. Nel processo di trasformazione da una forma all'altra (secondo il parametro della distanza di Levenshtein), entrambe le forme krama e gromma, storicamente collegate tra loro, si distinguono per un maggiore numero di segni sostituiti rispetto alle forme krama e brama, al contrario non collegate tra loro.





Attraverso la tipizzazione (costituzione di classi), la molteplicità dei dati raccolti diventa sempre più chiara; vale dunque la regola: numero dei tokens > numero dei tipi fonetici > numero dei tipi morfo-lessicali > tipo di base. Non è però escluso il caso estremo di una sola attestazione (hapax) che corrisponde ad un token, ad un solo tipo fonetico e ad un tipo morfo-lessicale come unico rappresentante di un tipo di base. Gli Hapax verranno dunque filtrati dalla rappresentazione.


(auct. Thomas Krefeld | Stephan Lücke – trad. Alessia Brancatelli | Susanne Oberholzer)

Tags: Linguistica



Trascrizione (CITAZIONE)

I materiali linguistici vengono resi in doppia forma grafica per fare fronte a due principi: la fedeltà alle fonti e una facile comparabilità.

(1) Versione input nella trascrizione originale
Nel portale di VerbaAlpina vengono riunite delle fonti che derivano da diverse tradizioni scientifiche (romanistica, germanistica, slavistica) e rappresentano delle fasi storicamente diverse della ricerca dialettologica; alcuni dati lessicografici sono stati rilevati all'inizio del secolo scorso (GPSR) e altri solo pochi anni fa (ALD). Per questo, dal punto di vista storico e epistemologico, è necessario rispettare la trascrizione originale nel miglior modo possibile. Per ragioni tecniche è però impossibile mantenere certe convenzioni in modo invariato. Questo vale soprattutto per le combinazioni verticali di carattere di base ('lettera') e segni diacritici, come per esempio quando un segno per l'accento è posizionato sopra un carattere di lunghezza sopra una vocale sopra un diacritico di chiusura (Codice beta). Queste convenzioni vengono trasferite in sequenze lineari di caratteri secondo trascrizioni tecniche definite in maniera particolare per ogni convenzione utilizzando esclusivamente caratteri ASCII (il cosiddetto codice beta). Utilizzando la codifica beta si può approfittare, almeno in parte, delle somiglianze grafiche intuitivamente comprensibili tra diacritici originali e le corrispondenze ASCII da noi scelte in quanto mnemonicamente vantaggiose.

(2) Versione output in IPA
Pensando alla comparabilità e anche alla facilità d'uso, in una trascrizione unificata, è inoltre auspicabile l'output dei dati. Tutti i codici beta saranno per questo trasferiti in segni IPA attraverso routine di sostituzione specifiche. Alcuni problemi inevitabili nascono per i casi dove a un carattere di base specificato attraverso diacritici nella trascrizione input, corrispondono due caratteri di base diversi in IPA. Questo vale soprattutto per il grado di apertura delle vocali dove per esempio i due caratteri di base <i> e <e>, in combinazione con il punto di chiusura e uno o due uncini di apertura, permettono di rappresentare sei diversi gradi di apertura nella serie palatale; nella codifica beta sono i seguenti: i – i( – i((– e?-- e – e(– e((. Per rendere caratteri, IPA dispone soltanto di quattro caratteri di base: i – ɪ – e – ɛ.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Linguistica Tecnologia dell'informazione