Principes de géolinguistique virtuelle (selon VerbaAlpina) – présentation (Citer)

Thomas Krefeld | Stephan Lücke


(2295 Mots)

Villejuif,  Campus CNRS, 5 – 6 avril 2023
Une version française élaborée de cette présentation est disponible ici.

Vue d'ensemble

I. Remarque préliminaire : trois générations d'atlas linguistiques
II. Huit principes pour la troisième génération

1. données numériques structurées comme base de travail
2. référence des données linguistiques aux notices d'autorité non linguistiques
3. gestion des données de recherche (FDM)
4. et participation interactive d'un large public
5. bases de données ouvertes et dynamiques
6. cartographie virtuelle sur une base géoréférencée
7. intégration possible de données contextuelles non linguistiques
8. Incorporation de l'atlas, du dictionnaire et du texte analytique

Appendice : Un exemple d'agrégation et d'imbrication des genres scientifiques

I. Remarque préliminaire: Trois générations d'atlas linguistiques

Les trois générations se distinguent :

  • dans la modélisation de la variation diatopique ;
  • dans l'idée de la représentativité des données linguistiques en face de la selection des informateurs, des lieux et des procédures d'élicitation
  • dans la conception et la réalisation médiatiques

1° génération : unidimensionnel, axiome de l'informateur unique représentatif (voir AIS)

2° génération : pluridimensionnelle (voir ADDU)

3° génération : technologie web (cf. Communication scientifique sur le web).

2. Generation   3. Generation
AsiCa  Asica 2.0
ASD
  Metropolitalia
  VerbaAlpina
les projets géolinguistiques des auteurs

II. Huit principes pour la troisième génération

1° principe : Des données numériques structurées comme base de travail

degré de
numérisation
annot., alargiss., liens export des données
D3 tabelle db
csv
texte électronique structuré XML
SQL
CSV
txt
...
HTML
PDF
PS
papier
D2 ↑ fichier texte txt
doc
texte électronique linéarisé ← praat
D1 ↑ doc. scanné jpg  code binaire wav, mp3
D0 ↑ papier écriture/image audio

exigence double

  • texte imprimé sur papier ⇒ OCR ou dactylographie ⇒ texte électronique
  • Fichier audio ⇒ ASR (automatic speech recognition ; STT : speech to text) ou dactylographie (Praat) ⇒ texte électronique (ASR jusqu'ici utilisable uniquement pour la langue standard)

Particulièrement important : la structuration des données

Structuration : production de métadonnées (variables "type", "source", "lieu", "signification" ...)

données analogique données numériques données numériques et structurées
tˈeːʥɑ
type source lieu signification
tegia AIS Ems CHALET

attestation: AIS 1192 (LA CASCINA DI MONTAGNA), lieu 5 (Ems) (VA-Beleg S293; Discover@UB)

structuré ASLEF-tableaux VerbaAlpina
non/part. structuré VALTS Idiotikon, WBOe
analogue numérique

structurations existantes ⇒ restructuration souvent nécessaire : structure A ⇒ structure B

APIs = idéales pour l'échange de données, la mise en réseau et la réutilisation (voir https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=8844&db=211).

Quelques exemples de sources saisies par VA, dans le contexte de la numérisation et de la structuration

Effort en partie réduit: les tableaux de l'ASLEF

Exemple d'atlas linguistique : Vorarlberger Sprachatlas mit Einschluss des Fürstentums Liechtenstein (VALTS; Atlas linguistique du Vorarlberg avec inclusion de la Principauté du Liechtenstein)

carte IV 73 du VALTS: données analogiques mixtes (types et attestations)

Exemple de dictionnaire : Schweizerdeutsches Idiotikon (Vocabulaire de l'allemand suisse)

Un exemple positif est le WBOe (Dictionnaire des parlers bavarois de l'Autriche)

WBOe ⇒ LIÖ ("Lexikalischen Informationssystems Österreich"; voir https://www.oeaw.ac.at/de/acdh/sprachwissenschaft/projekte/wboe/materialbasis, "Digitalisierung des Handzettelkatalogs")

  • mais : totalité des fichiers XML ne pas à la disposition du public

VerbaAlpina : format de données relationnel, exportation XML possible (exemple: entrées VA pour le concept C1, CHALET de la version VA 211)

Outils développés par VerbaAlpina pour la numérisation et la saisie structurée des données

objectif : transfer au niveau D3
outil de transcription (Link)

 

  • transcription en Beta code, à l'aide d'un clavier standard, très facile à apprendre, sans connaissance approfondie du système d'écriture transcrite

outil pour regrouper les attestations par types morpho-lexicaux (Link)


L'outil de VerbaAlpina qui sert à attribuer des types aux données des sources analogiques. L'exemple montre dans la case supérieure, marquée en rouge, une série d'attestations transcrites de la carte AIS 1218_1,'il siero del formaggio ; il siero della ricotta – petit-lait', qui peuvent être attribuées au type lexical 'lacciata' (f.) (roa.).

Géoréférencement

  • atlas
  • nombreux dictionnaires dialectaux (voir le Glossaire des patois de la Suisse romande (GPSR), le Vocabolario dei dialetti della Svizzera italiana (VSI) et le Dicziunari Rumantsch Grischun (DRG)

représentation cartographique de données lexicographiques

unité géographique de référence = commune politique enregistremen

  • coordonnées WGS84 (tracé des frontières communales + coordonnées de points indiquant le centre géométrique des territoires communaux
  • option: localiser des documents linguistiques au mètre près est

2° principe : Référence des données linguistiques aux notices d'autorité non linguistiques

  • attribuer des notices d'autorité persistantes
  • ⇒ identificateurs du projet Wikidata niveau de référence très différencié et fiable

Recherche de concept onomasiologique dans VA (original interactif https://www.verba-alpina.gwi.uni-muenchen.de/fr?page_id=18&db=222&tk=4709 , bouton 'concepts')

  • Recherche de concept onomasiologique dans VA
  • élargir Wikidata en continu, (voir le Q-ID Q66817486, identificateur univoque de VerbaAlpina https://www.wikidata.org/wiki/Q66817486).
  • identificateurs du projet Geonames :
  • Intégration de notices d'autorité externes dans une fenêtre de la carte en ligne

  • La connexion à des systèmes de notices d'autorité externes est importante, notamment pour trouver les données VerbaAlpina depuis l'extérieur. Jusqu'à présent, les QID de Wikidata ne sont reliés que de façon interne aux identifiants propres de VerbaAlpina. Il est
  • prévu : exporter les données VA dans Wikidata et attribuer la 'propriété' spécifique (VerbaAlpina ID), exemple  lexèmes qui désignent une couleurs)

3° principe : Gestion des données de recherche (FDM)

Orientation selon les critères FAIR

  • données FAIR : findable 'trouvable', accessible, interoperable et reusable 'réutilisable' (voir Lücke, Krefeld/Lücke 2020 et Krefeld 2018 g)
  • ⇒ respecter les initiatives libre acces (Open Access). code source ouvert (Open Source), renoncement au développement et à l'utilisation d'outils propriétaires

Contact avec des institutions qui mettent en œuvre la gestion des données de recherche: le rôle des grandes bibliothèques

VerbaAlpina & bibliothèque universitaire de la LMU

  • La conservation des acquis scientifiques a toujours été la mission centrale des bibliothèques
  • Les bibliothèques d'État et universitaires ont en général une perspective d'existence à durée indéterminée.

VerbaAlpina : projet pilote dans le cadre du projet "eHumanities – interdisciplinär"

  • deux versions (19/1 et 19/2) dans le dépôt informatique de la bibliothèque universitaire & dans le portail de recherche "Discover"
    • option de référencer ou de télécharger des versions complètes
    • adresser des documents individuels, des types morpho-lexicaux ou des localités avec le matériel linguistique qui leur est associé
    • générer des DOI spécifiques pour des paquets de données sélectionnés, uns autre référencement univoque par des identificateurs persistants propres à la BU

Portail "Discover"  (BU de la LMU). Le système permet entre autres de créer un DOI qui référence sur un type  morpho-lexikal de VerbaAlpina

4° principe : Adressage et engagement interactif d'un large public (crowdsourcing)

compréhension de l'interface facilitée par nombreuses infobulles

exemple:

Exemple d'infobulle (original interactif)

Les utilisateurs sont activement engagés de plusieurs manières :
  • Chacun peut apporter des formes linguistiques, qu'il soit expert ou non, et il est également possible de compléter des concepts manquants (voir https://www.verba-alpina.gwi.uni-muenchen.de/fr/en/?page_id=1741).
  • Les utilisateurs qui fournissent des preuves/concepts peuvent s'enregistrer et rester ainsi accessibles pour le projet ; cela est utile pour d'éventuelles questions. #Combien de % le font ?
  • Chaque utilisateur peut générer de manière interactive des cartes synoptiques en combinant n'importe quel contenu, les fixer et les proposer pour la publication. Ces propositions ne sont toutefois pas automatiquement mises à disposition de tous, mais examinées au préalable par les responsables du projet.
  • Une prise de contact directe est possible via les médias sociaux du projet ainsi que via des adresses e-mail (voir Home).
  • Les projets scientifiques Partenaires peuvent fournir autant de données pertinentes qu'ils le souhaitent et les héberger dans leur propre base de données, qui fait partie de l'architecture du projet.

5° principe : Des bases de données ouvertes et dynamiques

Les versions de VA disponibles en avril 2023

La 'Timeline' donne des informations sur l'avancement du projet (original interactif https://www.verba-alpina.gwi.uni-muenchen.de/fr/?page_id=172&db=222)

6° principe : Cartographie virtuelle sur base géoréférencée

cartographie purement virtuelle : surfaces très différentes (avec/sans relief, avec/sans inscription, carte/image satellite, etc.) en option :

surfaces cartographiques optionnelles (original interactif)

  • Récemment : cartes historiques imprimées géoréférencées , superposées aux cartes purement virtuelles (voir cet exemple)

 

Trois cartes historiques en superposition (original interactif)


cartographie quantitative, exemple : le nombre des utilisateurs actifs (2416 personnes, le 30.03.2023, 17:09) par rapport aux communes et aux régions définies par la Commission européenne NUTS 3 (NUTS : Nomenclature des unités territoriales statistiques) :

Visualisation optionnelle avec référence aux territoires communaux (à gauche, original interactif) et aux régions NUTS 3 (à droite, original interactif)

  • aussi selon États nationaux et régions linguistiques (familles de langues)

7° principe : Possibilité d'inclure des données contextuelles non linguistiques

informations démographiques et historiques sur le lieu attesté : liens des 5771 noms de communes de l'espace alpin aux entrées correspondantes du service geonames.org
exemple : la ville de  Garmisch-Partenkirchen ⇒ informations multiples d'ordre  topographique, administratif et encyclopédique (voir le symbole de Wikipedia):

Informations accessibles via geonames.org (exemple de Garmisch-Partenkirchen – source)


stratigraphie linguistique de l'espace alpin – dans le cas de Garmisch-Partenkirchen, l'existence éventuelle d'un substrat latino-roman ⇒ données historiques pertinentes , éventuelles inscriptions romaines ou la mention antique du nom de la localité dans l'Itinerarium Antonii ou dans la Tabula Peutingeriana :

Attestation de 'Parten(kirchen)' (Tarteno ⇒  <P>arteno) sur la 'Tabula Peutingeriana' (original interactif )

  • données contextuelles non linguistiques : conservées avec les données linguistiques dans le tableau "lieux" de la base de données centrale VerbaAlpina

 

Extrait du  tableau 'lieus' de la base de donées VA avec des entrées liées avec 'Partenkirchen'

 

  • tableau "Lieux" : environ 175000 entrées , volume de plus de 250 MB; classées dans 47 catégories, par exemple des catégories suivantes :
  • monastères (1317) ; champs_de_fouilles_lombards (120) ; communautés walser (77) ; inscriptions rhétiques (36) ; ...

 

8° principe : Incorporation de l'atlas, du dictionnaire et du texte analytique

    • Les genres traditionnels de la recherche géolinguistique (monographie locale, atlas, dictionnaire, corpus) : complémentaires
    • reliés de manière organique dans médias numériques ⇒ exemple : l'onglet méthodologie avec discussions théoriques (linguistique et informatique), liée aux deux fonctionnalités principales

conçues en symbiose :

Imbrication d'informations cartographiques et lexicographiques

    • requêtes sur le corpus de données cliquant sur le bouton 'SQL Query'  :

Fenêtres et cases pour requêtes individuelles. Une info-bulle présente les champs du tableau et les catégories de donnée.

Exemple : attestations avec le type de base "butyru(m)" :

Cartographie des attestations du type lexical Butter avec p-initial. Un clic droit sur la légende permet de modifier la requête SQL-Abfrage (boîte de dialogue droite).

Un exemple d'agrégation et d'imbrication des genres scientifiques
point de départ : article chaschöl du dictionnaire de référence du roman des Grisons DRG (Link), sur la carte chaschöl 'fromage' en association avec celles d'autres sources, voir le marquage représentatif des lieux du VSI.:

Diffusion du typ chaschöl (< lat. caseolus) selon deux sources agrégées, interaktives Original

    voir spécificité régionale du type (Tessin, Grisons, Dolomites) dans le contexte de toutes les autres dénominations de FROMAGES (voir la carte FROMAGE)

Bibliographie

  • ADDU = Thun, Harald / Elizaincín, Adolfo (2000-): Atlas lingüístico diatópico y diastrático del Uruguay, Kiel, Westensee
  • AIS = Jaberg, Karl / Jud, Jakob (1928-1940): Sprach- und Sachatlas Italiens und der Südschweiz, Zofingen, vol. 1-7
  • ASD = Krefeld, Thomas / Lücke, Stephan / Mages, Emma (2016): Audioatlas Siebenbürgisch-Sächsischer Dialekte , München, Ludwig-Maximilians-Universität. Link
  • ASLEF = Pellegrini, Giovan Battista (1974-1986): Atlante storico-linguistico-etnografico friulano, Padova, vol. 1-6
  • AsiCa = Krefeld, Thomas / Lücke, Stephan (2006-2017): Atlante sintattico della Calabria, München. Link
  • Asica 2.0 = Krefeld, Thomas / Lücke, Stephan (2019): Atlante sintattico della Calabria. Rielaborato tecnicamenta da Veronika Gacia e Tobias Englmeier, München. Link
  • DRG = De Planta, Robert/ Melcher, Florian/ Pult, Chasper/ Giger, Felix (1938ff.): Dicziunari Rumantsch grischun, Chur, Inst. dal Dicziunari Rumantsch Grischun. Link
  • GPSR = Gauchat, Louis (Hrsg.) (1924ff.): Glossaire des patois de la Suisse romande, Genève [u.a.], Droz [u.a.]
  • Idiotikon = (1881 ff.): Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch, Basel. Link
  • Krefeld 2018 g = Krefeld, Thomas (2018): I principi FAIR nel progetto VerbaAlpina, ossia il trasferimento della geolinguistica alle Digital Humanities. Link
  • Krefeld/Lücke 2020 = Krefeld, Thomas / Lücke, Stephan (2020): 54 Monate VerbaAlpina – auf dem Weg zur FAIRness, in: Ladinia, vol. XLIII, 139-156. Link
  • Metropolitalia = Krefeld, Thomas / Lücke, Stephan / Bry, François (2010-2013): Metropolitalia. Social Language Tagging, München. Link
  • VALTS = Gabriel, Eugen (1985-2004): Vorarlberger Sprachatlas mit Einschluss des Fürstentums Liechtenstein, Westtirols und des Allgäus , vol. 1-5, Bregenz, vol. 1-5, Vorarlberger Landesbibliothek
  • VSI = Sganzini, Silvio (1952ff): Vocabolario dei dialetti della Svizzera italiana, Lugano, Tipografia la Commerciale
  • VerbaAlpina = Krefeld, Thomas / Lücke, Stephan (2014-): VerbaAlpina. Der alpine Kulturraum im Spiegel seiner Mehrsprachigkeit, München. Link
  • WBOe = Bauer, Werner/ Kranzmayer, Eberhard. Institut für österreichische Dialekt- und Namenlexika (Hrsg.) (1970–): Wörterbuch der bairischen Mundarten in Österreich, Wien, Verl. der Österr. Akad. der Wiss.