Méthodologie

Tri

Montrer toutes les contributions

(no Tag)   Crowdsourcing   Dokumentation   Forschungslabor   Kooperation   Publikation  


Beta code  (Citer)

En référence à la terminologie du Thesaurus Linguae Graecae (TLG) qui a développé le concept correspondant au début des années soixante-dix pour la saisie électronique de textes en grec ancien avec des moyens de technique informatique d'alors, la transcription de systèmes d'écriture complexes à l'aide exclusif de caractères ASCII est désigné "Beta code" dans le cadre de VerbaAlpina.
Le graphique suivant illustre le procédé à l'aide d'un exemple de l'Atlante italo-svizzero (AIS):





Tout d'abord, on distingue les caractères de bases des diacritiques lors de la transmission de la transcription phonétique utilisée dans l'atlas linguistique selon Böhmer-Ascoli dans des séquences composées par des caractères ASCII. Si un caractère de base est présent dans le code ASCII, ce caractère est représenté par lui-même lors de la transmission (ce qui est entièrement le cas dans l'exemple présenté). Tous les diacritiques liés au caractère de base le suivent immédiatement après. Chaque diacritique est remplacé par un caractère ASCII spécial. L'affectation des diacritiques à des caractères ASCII est claire dans VerbaAlpina et elle est documentée dans des tableaux de la base de données VerbaAlpina. Le choix de l'affectation est guidé par le principe de la ressemblance optique autant que possible. Ainsi dans l'exemple mentionné, la coche sous l'u dans la parole tu est rendue par une parenthèse ouvrante: tu(. Les diacritiques sont écrits en partant des leur disposition près le caractère de base dans l'ordre de bas en haut et de gauche à droite après le caractère de base. En raison du principe de la ressemblance optique l'affectation des diacritiques se fait indépendamment de leur sémantique dans la source spécifique, c.-à-d.: même si une coche sous un caractère de base a un sens phonétique complètement différent dans une source que dans une autre, la coche est rendue malgré tout en les deux cas par une parenthèse fermante. Les différences sémantiques sont documentées dans des tableaux de transcription spécifiques pour chaque source: ceux-ci règlent la conversion du beta code à la transcription d'output selon API, c.-à-d.: le même beta codage peut conduire à des codages API entièrement différents suivant la source.
Le procédé décrit a un nombre d'avantages:
- la saisie des données peut être fait sur des claviers standard traditionnels à relativement grande vitesse et elle est complètement indépendante du système d'exploitation;
- les transcripteurs n'ont bas besoin de connaissances de systèmes de transcription phonétique;
- n'importe quel caractère respectivement diacritique peut être saisi, indépendamment s'il est codé dans Unicode ou pas;
- la saisie des données électronique se fait sans perte d'information.
Le beta code peut être converti en presque n'importe quel autre système de transcription par des routines de remplacement. Dans le cadre de telles conversions, des pertes d'information peuvent se passer éventuellement; celles-ci sont pourtant crées par l'essence des systèmes de transcription. Ainsi, la transcription phonétique selon Böhmer-Ascoli fait une distinction des différents degrés d'ouverture d'une manière très détaillée qui n'est pas prévue dans le système API.


(auct. Thomas Krefeld | Stephan Lücke – trad. Susanne Oberholzer)




Tags: Dokumentation Kooperation Forschungslabor



Carte synoptique  (Citer)

Cette fonction permet à l'utilisateur de choisir un certain nombre de cartes seules disponibles selon ses propres intérêts et de les fixer dans des cartes combinées synoptiques. De cette manière on peut visualiser les zones de diffusion de n'importe quelle caractéristique linguistique et extralinguistique en relation. En même temps, on a la possibilité de fixer ces cartes synoptiques en niveaux de zoom différents si un contexte local, comme par ex. le massif des Karwendel ou le continuum dialectal occitan-franco-provençal-piémontais des Alpes occidentales, doit être manifesté.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Dokumentation Kooperation Forschungslabor



Communication scientifique au web  (Citer)

VerbaAlpina peut être décrit comme environnement de recherche sur le web et sensible à l'espace. Ce format est déterminé par les conditions générales actuelles qui se distinguent considérablement de la communication scientifique traditionnelle. En toutes les disciplines qui travaillent de manière 'classique' avec des données empiriques, on peut distinguer trois phases successives:
  1. Le scientifique cherche des informateurs.
  2. Les informateurs fournissent des données primaires au scientifique.
  3. Le scientifique fait passer une certaine quantité des données relevées qui ont été sélectionnées et modelées selon des hypothèses théoriques à un public essentiellement scientifique.
La communication en ces trois phases se déroule de manière unidirectionnelle et vise à une publication conclue en forme de livres imprimés.

Les trois pas de la communication scientifique traditionnelle

Les nouveaux médias ont révolutionné les conditions générales pour la communication scientifique: l'unidirectionalité ébauchée de la circulation de l'information est tout aussi abolie que l'attachement du rôle (INFORMATEUR, AUTEUR, LECTEUR) à des personnes différentes; de principe, la même personne peut participer à la communication dans des fonctions rapidement changeantes. La fonction INFORMATEUR est fondamentalement changée compte tenu des personnes communicantes car la gestion des données fournies reste transparente et peut être suivie de façon continue. L'INFORMATEUR devient comme ça LECTEUR de ses propres DONNÉES – tout indépendamment s'il comprend l'intention scientifique ou pas. En même temps, il lui est possible de prendre position sur ses propres données comme AUTEUR. Le statut des données mêmes se change au moins aussi radicalement dans ces conditions car elles sont déposées dans une base de données fondamentalement dynamique dont le volume et la structure restent soumis à des changements.


Communication scientifique dans les conditions de l'Internet

Dans ce sens, des domaines de fonction différents, mais étroitement liés entre eux sont établis en VerbaAlpina.


(auct. Thomas Krefeld – trad. Susanne Oberholzer)


Tags: Kooperation Publikation Crowdsourcing



Concession d'une licence  (Citer)

Les modules de VerbaAlpina (VA_DB, VA_WEB et VA_MT) et les données y contenues sont soumis aux licences Creative Commens suivantes:




CC BY-SA 3.0 DE (http://creativecommons.org/licenses/by-sa/3.0/fr/; "Attribution, Partage dans les Mêmes Conditions") (dépendant de l'objet) respectivement




CC BY-NC-SA 3.0 DE (http://creativecommons.org/licenses/by-nc-sa/3.0/fr/; "Attribution, Pas d'Utilisation Commerciale, Partage dans les Mêmes Conditions").

Quelques-uns des fichiers média du module VA_MT que VA ha reçus ou achetés peuvent aussi être soumis au copyright. Les objets dans le module VA_MT sont marqués chaque fois par des signes correspondants.

Le système de concession d'une licence ainsi que les droits d'accès des groupes d'utilisateurs de VA différents sont démontrés dans le graphique suivant:





(auct. Stephan Lücke – trad. Susanne Oberholzer)

Tags: Kooperation Publikation



Couche d'accès aux données  (Citer)

L'accès au module VA_DB permet la recherche directe dans les données primaires du projet. Ce sont ou des hommes (par le module VA_WEB) ou des machines respectivement des programmes qui utilisent cet accès. Le deuxième scénario se fait par exemple pour la communication entre le module VA_WEB e VA_CB à l'intérieur du projet, mais aussi pour les accès automatiques, par exemple par des ordinateurs ou des programmes des partenaires projet VA. Au cours des travaux de développement des modules VA_WEB et VA_DB il est souvent nécessaire – du point de vue de l'informatique ou bien de la programmation – de changer des structures de données actuelles et de les adapter aux nouvelles exigences. Cela peut conduire à désarroi dans le cas de l'accès par un homme; dans le cas de l'accès par une machine ou bien un programme le résultat est simplement un dysfonctionnement. Pour remédier à ce problème, on insert dans la VA_DB une structure de données – au moins en grande partie – stable dans laquelle les structures de données primaires qui sont variables peuvent être projetées.

(auct. Stephan Lücke – trad. Susanne Oberholzer)

Tags: Kooperation Publikation Forschungslabor



Domaine de fonction (2): coopération  (Citer)

La coopération avec d'autres projets est fondamentale pour la conception de VerbaAlpina. Elle se reflète dans de nombreux contrats de coopération avec des partenaires de projet. Son application n'est pourtant pas toujours facile; elle est gênée par des problèmes pratiques, c.-à-d. des problèmes dus aux techniques de l'information et corrélativement des problèmes relatifs au droit. Marginalement, l'application est aussi gênée par des réserves idéologiques à l'égard de l'orientation open source. Chaque coopération est basée sur un accord formel qui assure les partenaires (PVA) d'une base de données exclusivement utilisable à la télétransmission. Chaque base de données de partenaire est à la disposition de tous les partenaires pour le téléchargement. Mais la coopération ne doit bien évidemment pas être limitée à l'échange des données; au contraire, tous les partenaires sont invités (et incités) à utiliser tous les domaines de fonction.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Kooperation Publikation



Etymologie  (Citer)

Pour dégager les strates linguistiques, la stratigraphie demande l'etymologisation. Le commentaire étymologique part du type de base et poursuit un but triple :
- déterminer la langue d'origine de la base lexématique ;
- justifier l'union de tous les types unis au même type de base; pour faire cela, on recourt aux régularités de la phonétique historique et à la plausibilité sémantique des relations conceptuelles sont sous-jacentes ;
- reconstruire les trajets des emprunts si le type de base est répandu dans plusieurs régions linguistiques; dès que la langue de l'étymon d'un côté et de l'informateur de l'autre ne sont pas conformes, on constate automatiquement contact linguistique.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Dokumentation Kooperation



Géolinguistique plurilingue  (Citer)

C'est un des objectifs de ce portail de faire ressortir la force façonnante du contact linguistique et spécialement son conditionnement ethnolinguistique au cours de l'histoire de l'espace linguistique alpin. La conception de la base de données permettra de représenter les emprunts saisis aussi quantitativement dans leur accumulation locale parce qu'ils résultent automatiquement quand l'appartenance d'un informateur à une des trois familles linguistiques ne correspond pas à celle de l'étymon. Ce sont trois familles linguistiques qui forment la région alpine moderne sous forme de continua dialectaux avec une extension et une différenciation complètement diverses. Les zones de diffusion de ces trois familles linguistiques ne coincident d'ailleurs pas avec les territoires des États politiques. Le germanique est représenté par des variétés alémaniques et bavaroises qui peuvent être attribuées à la langue allemande pluricentrique. Toutefois la référence commune aux variétés standard suisse, allemande et autrichienne qui ne fonde que l'affiliation à la même communauté linguistique n'existe plus en fait dans certaines enclaves linguistiques walser et anciennes bavaroises (cimbres).
Les variétés du continuum roman peuvent être attribuées – à l'inverse des régions germaniques – à plusieurs langues; en plus du français et de l'italien il s'agit conformément à la reconnaissance politique en Suisse et en Italie de l'occitan, du franco-provençal, du romanche, du ladin et du frioulan.
Le slave est représenté par des dialectes slovènes qui sont parlés sauf en Slovénie aussi dans plusieurs communes italiennes et autrichiennes. Ce n'est pourtant pas l'objectif de VerbaAlpina de décrire le plus complètement possible les dialectes de la région alpine, de faire ressortir les frontières des dialectes locaux ou régionaux et de représenter l'espace en quelque sorte comme mosaïque de variétés. Grâce à la conception géolinguistique du projet, il s'agit plutôt de faire apparaître ces caractéristiques (surtout lexicales) qui sont répandues au-delà des frontières de certains dialectes ou de langues particulières et qui démontrent ainsi la trame ethnolinguistique commune .





Vu que les dialectes constituent des systèmes linguistiques complets en eux-mêmes, et qu'ils représentent trois continua 'génétiquement' différents on peut prétendre que le projet affronte le contact linguistique dans la perspective d'une géolinguistique plurlingue.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Dokumentation Kooperation



Géoréférencement  (Citer)

Le géoréférencement en employant les degrés de latitude et de longitude est un critère de classement essentiel pour la gestion des données de VerbaAlpina. La précision de ce référencement varie selon le type de données; on aspire un référencement le plus exact possible, au mètre près. Au cas des données linguistiques des atlas et des dictionnaires, c'est seulement un référencement approximatif conformément à un toponyme qui est possbile en règle générale. Au cas de données archéologiques par contre, des géoréférencements au mètre près sont possibles. On peut sauvegarder des points, des lignes (commes des rues, des rivières) et des surfaces. Sous l'angle technique, le format WKT (https://en.wikipedia.org/wiki/Well-known_text) est principalement utilisé, celui-ci est transféré à un format MySQL spécifique dans la base de données VA par la fonction geomfromtext() (https://dev.mysql.com/doc/refman/5.7/en/gis-wkt-functions.html et est sauvegardé ainsi. La sortie au format WKT se produit par la fonction MySQL astext().
La grille de référence du géoréférencement est le réseau des communes dans la région alpine qui peuvent être sorties ou comme surfaces ou comme points, suivant les besoins. Les tracés des frontières de commune du 2014 que VerbaAlpina a reçus de son partenaire "Conférence Alpine" en forment la base. Une actualisation permanente de ces données qui changent tout à fait plus souvent à cause des réformes administratives pas rares est superflue car il s'agit seulement d'un cadre de référence géographique dans la perspective de VerbaAlpina. Une représentation de la grille des communes est déduite de façon algorithmique des frontières de commune et est donc secondaire.



Tags: Dokumentation Kooperation Crowdsourcing



Humanités numériques  (Citer)

Le projet VerbaAlpina était destiné d'emblée à être implémentées par les navigateurs web car il veut contribuer de manière décisive au transfert des traditions établies des sciences humaines, plus précisément de la géolinguistique, aux humanités numériques, angl. digital humanities.
Voici ce que cela signifie :
(1) La base empirique de la recherche consiste en données (cf. Schöch 2013), c.-à-d. en unités digitalement codifiées et structurées ou au moins structurables ; il s'agit de données en partie déjà publiées et numérisées beaucoup plus tard, dans le cadre de ce projet même (comme par ex. les matériaux des atlas plus vieux), mais en partie aussi de données originales à relever encore. Dans les domaines conceptuels pertinents on aspire à bancariser une quantité de donnée consistante. La méthode est donc quantitative et largement inductive.
(2) La communication scientiifique se sert des conditions médiatiques de l'internet. Cela offre tout d'abord la possibilité de tresser hypertextuellement des média différents (écriture, image, vidéo, audio) ; de plus, les chercheurs, les partenaires de coopération et/ou les informateurs peuvent communiquer et coopérer les uns avec les autres de façon continue.
(3) En procédant de cette façon, cette plate-forme scientifique et collaborative offre aux chercheurs la possibilité de participer activement à son développement. Cette perspective est utile et productive à au moins deux égards : elle permet d'engager des sièges différentes et surtout de promouvoir la combinaison constructive de technologie de l'information et géographie linguistique avec des ressources publiques sans devoir recourir au service d'assistance de sociétés d'informatique privées (service d'assistance qui peut créer des problèmes juridiques et économiques).
(4) Le savoir qui est pertinent pour le projet pourra être accumulé et modifié de façon continue pendant longtemps bien que la garantie d'une disponibilité permanente ne puisse pas encore être offerte du point de vue technique (cf. sur ce point l'infrastructure scientifique CLARIN-D , page Web disponible seulement en allemand et en anglais). Sous cet angle, ce n'est plus une requête principale de publier les résultats du projet en forme de support d'information matériel (livres, CD, DVD). Néanmoins une option secondaire d'imprimer sera installée, une option qui est offerte parfois aussi par la lexicographie en ligne, comme le fait le Tesoro della Lingua Italiana delle Origini de façon exemplaire.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Kooperation Crowdsourcing



Informateur  (Citer)

L'expression informateur est d'ordre technique dans VerbaAlpina parce qu'elle comprend deux choses différentes suivant la source: dans les atlas toutes les données linguistiques sont en général transparentes jusqu'au locuteur lui-même; dans la basede données, les informateurs sont identifiables par un numéro individuel. Ils sont de plus chronoréférencés par l'année de l'enquête et géoréférencés par le lieu de l'enquête. Dans les dictionnaires géoréférénciables par contre, il est normalement impossible d'identifier des locuteurs concrets. Par des raisons techniques dues à la base de données un informateur fictif est attribué à chaque source de ce genre. Chaque informateur est ensuite attribué à famille linguistique et cette attribution est transmise automatiquement à toutes les données fournies de cet informateur.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Kooperation Crowdsourcing



Modélisation des données  (Citer)

voir Modèle relationnel.

Tags: Dokumentation Kooperation Forschungslabor



Page de code  (Citer)

VerbaAlpina réunit des données de différents genres de sources: des données d'atlas linguistiques et de dictionnaires imprimés qui doivent tout d'abord être numérisés aussi que des données qui existent déjà en forme électronique d'un nombre de projets partenaire. Chaque de ces sources différentes utilise des systèmes plus ou moins individuelles pour la transcription. Pour réaliser l'uniformisation nécessaire on a besoin de listes dans lesquelles est fixé quel caractère dans le système de transcription d'une source a quelle correspondance dans le système de transcription d'une autre source. Il s'agit surtout de représenter les systèmes de transcription différents sur l'Alphabet phonétique international (API) qui fait office de transcription de référence dans VerbaAlpina. Pour transférer le système de transcription spécifique à une source au système API on doit créer une liste complète en forme de tableau avec les correspondances de caractère. Un tableau pareil est nommé "page de code". Ci-après un extrait de la page de code qui est fondamental pour la conversion du système de transcription de l'AIS à l'API. En tout, cette page de code comprend en gros 4500 lignes/affectations:


La colonne `BETA` comprend les caractères utilisés dans l'AIS en forme transcrite selon le principe du beta code; la colonne `IPA` le caractère API correspondant et la colonne `HEX` la valeur ou les valeurs du tableau Unicode qui correspond(ent) au caractère API.

(auct. Stephan Lücke – trad. Susanne Oberholzer)

Tags: Dokumentation Kooperation



Sources  (Citer)



Tags: Dokumentation Kooperation Crowdsourcing



Stratigraphie  (Citer)

Les Alpes sont une région de contacts linguistiques variés depuis l'époque préhistorique. Ils remontent à des configurations stratigraphiques très différentes (cf. Krefeld 2003). En principe, les langues qui sont en contact dans une région parce qu'il y a des locuteurs ou même des communautés de locuteurs plus ou moins bilingues sont désignées adstrats. Si un type de contact est répandu seulement dans une certaine région, comme par exemple dans les Alpes, et si ce type ne se retrouve  pas ailleurs dans les familles linguistiques concernées, souvent ni la direction de l'emprunt, ni la langue d'origine ne sont claires (cf. le type de base rom. baita 'chalet de montagne' / ted. Beiz, Beisl 'buvette').
Si la langue d'origine de l'emprunt n'est plus parlée dans la région de diffusion ou dans une partie de elle-ci, on distingue deux configurations: dans le cas du substrat, la langue d'origine (la langue de substrat) était parlée dans la région de diffusion avant que la continuité de sa tradition orale ait été interrompu et la langue dominante se soit imposée; le roman est la langue de substrat pour toutes les parties de région alpine où parle actuellement allemand et slovène. Les mots de substrat se distinguent souvent par une continuité régionale ou locale extraordinaire; ils survivent donc le remplacement de leur langue originaire (la langue substratique) par les langues succédantes,  Dans le cas du superstrat, la langue d'origine dominait pendant une certaine période dans la région de diffusion sans s'y établir pourtant durablement. Comme ça, dans des parties de la région alpine où on parle aujourd'hui des les variétés romanes, des superstrats germaniques (le gotique, le lombard) prédominaient après l'effondrement de l'infrastructure romane; en Slovénie, l'allemand avait cette fonction de langue superstratique pendant la période des Habsbourg. Entre les trois familles linguistiques, des scénarios complètement différents se sont développés; eu égard à l'importance du contact linguistique pour l'histoire de l'espace linguistique c'est surtout la chronologie de l'emprunt qui compte : par exemple la question de savoir si les emprunts romans dans les régions germaniques et slaves représentent de mots de substrat avec une continuité orale régionale depuis l'Antiquité ou d'emprunts plus récents de type adstratique? La même question vaut mutatis mutandis pour les germanismes dans la région romane et les slavismes dans la région germanophone.



Les emprunts sont un indicateur fiable des divers processus d'acculturation historique; il méritent donc une analyse quantitative qui soit capable de documenter des effets d'accumulation locale.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Dokumentation Kooperation Forschungslabor