Le point de mire de VerbaAlpina est la réduction à types morphologique des matériaux linguistiques rassemblés. Un type morphologique est défini par l'unanimité des propriétés suivantes: famille linguistique – partie du discours – mot simple versus mot affixé – genre – type de base lexical. La forme indiquée du type morphologique s'oriente aux lemmes correspondants de certains dictionnaires sélectionnés (voir ci-dessous).
Par l'attribution à un type de base lexical commun, l'union de tous les types morpho-lexical associés devient claire – même par-dessus des frontières linguistiques. Ainsi les noms et verbes suivants (qui ne sont pas décrits en détail ici) peuvent être attribués à un seul type de base malga (ALPAGE, TROUPEAU), malgaro (VACHER), malghese (BERGER), immalgare (ENALPER), dismalgare (DÉSALPER). Toutefois, le type de base lexical en dit peu rien sur l'histoire de parole d'un seul type morpho-lexical: on doit faire ressortir chaque fois séparément si un type avec étymon latin-roman qui aujourd'hui est attesté dans la région linguistique germanique ou slave, comme par exemple slovène baita 'maison simple', remonte à substrat local ancien ou bien à contact linguistique roman plus récent. Pour cette raison, la désignation "étymon" qui fait de principe référence au stade historique immédiatement préliminaire d'une parole est évitée dans ce contexte, même si le type de base lexical correspond en beaucoup de cas à l'étymon d'un type morpho-lexical.
Les types morpho-lexicaux forment la catégorie directrice dans la gestion des données linguistiques; ils sont comparables aux lemmes de la lexicographie. Au moyen des critères susnommés robustes et bien mesurables on peut réduire par ex. les quatre types phonétiques barga, bark, margun, bargun avec le sens CHALET DE MONTAGNE, ÉTABLE D'ALPAGE à trois types morphologiques.
L'appartenance des types morpho-lexicaux à des familles linguistiques (germ., rom., slav.) dépend de la source correspondante; elle résulte dans le cas des données d'enquêtes traditionnelles d'atlas ou de dictionnaires automatiquement des informateurs correspondants et est notée corrélativement dans la banque de données. Dans le cas des données que VerbaAlpina même relève par crowdsourcing l'appartenance linguistique ou bien dialectale est prétendue par les informateurs et est confirmée quantitativement dans le meilleur des cas. Le nombre d'informateurs confirmants devient ainsi un instrument de la validation de données.
Des types morpho-lexicaux sont limités à une famille linguistique. La question qui se pose avec cela est la suivante: par quelle forme un type morpho-lexical devrait être représenté dans la zone de recherche de la carte interactive? Eu égard à la famille linguistique germanique et slave la réponse est plutôt facile parce que les deux sont représentées chacune par une seule langue standardisée ('Deutsch' [deu] respectivement 'Slowenisch' [slo]). Les types morpho-lexicaux peuvent être rendus sous la forme de leur variantes standard, évidemment à condition que des correspondances de ce type existent dans la langue standard. Ainsi, par exemple, tous les types phonétiques correspondants de l'alémanique et du bavarois qui sont des variantes de la forme standard
Au cas de la famille linguistique romane la situation est beaucoup plus complexe à cause des nombreuses langues petites qui ne sont pas assez standardisées. Par des raisons pragmatiques on a choisi la solution suivante: tous les types morpho-lexicaux sont représentés par les formes standard françaises et italiennes, si existantes. Ainsi tous les types phonétiques qui sont variantes de par ex. beurre/burro peuvent être appelées par ces deux formes. Les dictionnaires TLF et Treccani font office de dictionnaires de références. Si seulement une de ces deux langues standard présente une variante convenable, c'est celle-ci qui apparaît, comme dans le cas de ricotta (l'appartenance à l'italien est signalée par la convention de notation -/ricotta). S'il n'y a aucune variante du type dans les deux langues de références romanes, on recourt à l'entrée d'un dictionnaire de références dialectal, comme par ex. le LSI. Au cas où il n'existe aucune entrée dans les dictionnaires dialectaux, VerbaAlpina propose un type de base qui est représenté graphiquement par le sigle 'VA'.
Il est prévu aussi la réduction à types phonétiques des matériaux linguistiques ; cette étape de travail est pourtant secondaire est n'est pas faite de façon cohérente. La catégorie correspondante est indispensable surtout à cause des atlas linguistiques et des dictionnaires qui documentent parfois exclusivement (par ex. SDS, VALTS) des types phonétiques. Lors de la réduction à types phonétiques faite par VerbaAlpina, les tokens sont classés selon les critères de la phonétique historique dans des types phonétiques (case de base de données 'phon_typ'); une automatisation de la réduction à types phonétiques sur la base d'algorithme Levenshtein et soundex sera examinée et, si possible, appliquée.
Par la réduction à types (constitution de classes) la diversité de données devient plus claire; il est valable en règle générale: nombre des tokens > nombre des types phonétiques > nombre des types morpho-lexicaux > type de base. On note le cas extrême d'une seule attestation (hapax): l'attestation correspond à un token, un type phonétique et un type morpho-lexical comme seul représentant d'un type de base. Il est éventuellement raisonnable de filtrer ces formes d’hapax de la représentation.
(auct. Thomas Krefeld | Stephan Lücke – trad. Susanne Oberholzer)
Tags: Linguistique