Méthodologie

Tri

Montrer toutes les contributions

A   B   C   D   E   F   G   H   I   J  K  L   M   N   O   P   Q  R   S   T   U   V  W   X  Y  Z 


Page de code  (Citer)

VerbaAlpina réunit des données issues de différents types de sources : des données d'atlas linguistiques et de dictionnaires imprimés, qui doivent tout d'abord être numérisées, ainsi que des données déjà numérisées, issues de projets partenaires. Chaque source utilise des systèmes de transcription plus ou moins individuels. Pour réaliser l'uniformisation nécessaire, des listes sont établies dans lesquelles il est fixé quel caractère du système de transcription d'une source X correspond à quel autre dans le système de transcription d'une source Y. Il s'agit surtout de retranscrire les différents systèmes de transcription en Alphabet phonétique international (API), qui fait office de transcription de référence dans VerbaAlpina. Pour convertir le système de transcription spécifique à une source en système API, on doit créer une liste complète sous forme de tableau indiquant les correspondances de caractère. Un tel tableau est nommé "page de code". Ci-dessous un extrait de la page de code fondamentale pour la conversion du système de transcription de l'AIS en API. Cette page de code comprend environ 4500 lignes/affectations en tout :


La colonne `BETA` comprend les caractères utilisés dans l'AIS en forme transcrite selon le principe du beta code; la colonne `IPA` le caractère API correspondant, et la colonne `HEX` la valeur ou les valeurs du tableau Unicode qui correspond(ent) au caractère API.

Un aperçu complet des pages de code de toutes les sources de VerbaAlpina se trouve ici.

(auct. Stephan Lücke – trad. Susanne Oberholzer)

Tags: Linguistique Technologie de l'information



Participer!  (Citer)

Chaque soutien est bénéfique à VerbaAlpina, il existe différentes possibilités pour participer activement au projet.

Par exemple, en transcrivant des données provenant de sources imprimées telles que les atlas linguistiques ou les dictionnaires, et en les structurant dans une base de données. Il est aussi possible de vérifier l'exactitude des données déjà transcrites et de relier le matériel transcrit à des lemmes lexicaux. Les commentaires sur l'origine et la distribution des mots ou des types de mots sont également les bienvenus.

Nous sommes également très intéressés par le matériel linguistique actuel, non documenté dans les publications telles que les atlas et dictionnaires de langues déjà mentionnés. Si vous connaissez un dialecte parlé dans la région alpine, nous serions heureux que vous introduisiez des expressions de ce dialecte dans la base de données de VerbaAlpina. De cette manière, il sera possible d'enrichir le stock de données des sources imprimées et, par exemple, de reconnaître et d'observer les processus dynamiques de changement linguistique. Plus grand est le nombre de participants, meilleur sera le résultat.
D'autre part, avez-vous des photos d'objets typiquement alpins ? Par exemple, des photos d'alpages, de refuges, de flore, de faune, de montagnes et de paysages ? Alors téléchargez-les dans notre médiathèque, marquez où et quand la photo a été prise, ce qu'elle montre et – si vous la connaissez – donnez l'expression dialectale spécifique pour ce qui est montré sur la photo.

A côté de la coopération avec VerbaAlpina, vous pouvez configurer votre propre environnement de recherche dans notre système, que vous pouvez utiliser principalement pour la collecte de données linguistiques, mais qui aussi est utile pour d'autres données. La seule condition requise est que les donnés soient géoréférençables. Vous avez la possibilité de garder ces données sous clé pour votre usage personnel, mais vous pouvez également les mettre à disposition d'autres utilisateurs afin qu'ils puissent en discuter et les commenter. Nous vous encourageons à mettre le plus d'informations possibles à disposition du public. De cette façon, le potentiel des technologies de bases de données et de réseaux sera pleinement exploité.

Afin de soutenir VerbaAlpina et/ou d'utiliser le système pour votre propre usage, vous êtes invités à vous inscrire sur notre portail : https://www.verba-alpina.gwi.uni-muenchen.de/wp-login.php?action=register]

(auct. Stephan Lücke – trad. Beatrice Colcuc)

Tags: Page Web



Photographies  (Citer)

La médiathèque de VerbaAlpina contient une collection riche et variée de photographies géoréférencées, s'accroîssant continuellement. Ces photographies ont deux fonctions : d'une part, elles renvoient à des référents concrets avec toutes leurs particularités idiosyncratiques, très prononcées surtout concernant les bâtiments. D'autre part, les photographies doivent illustrer un concept d'une manière la plus parlante possible et devenir ainsi une base d'enquête cherchant d'autres désignations pour le concept. L'objectif de cette fonction n'est donc pas celle de reconnaître le référent spécifique, par exemple un chalet particulier. Cela serait même plutôt gênant car dans ce cas les informateurs ont tendance à indiquer le nom propre de l'alpage et pas les désignations du concept. Ce risque est pourtant calculable: un malentendu fondamental résulte en principe seulement de situations où les informateurs reconnaissent des personnes connues. Dans un tel cas, les caractéristiques individuelles catalysent toute l'attention de l'observateur à tel point que la personne représentée est appelée spontanément et involontairement par son nom ("mais c'est le Willi !") – et pas par la fonction qu’elle exerce sur la photographie (VACHER). A proprement parler, l'emploi de dessins idéalisés à la place de photographies d'objets concrets serait plus adéquat pour l'enquête de désignations. Cela échoue pourtant à cause de l'absence de modèles correspondants. Toutes les illustrations de référents sont associées aux catégories "concept" et "désignation" par la base de données.

(auct. Thomas Krefeld | Stephan Lücke – trad. Susanne Oberholzer)

Tags: Contexte extralinguistique



Principes FAIR  (Citer)


En 2016, un article rédigé par de nombreux chercheurs de diverses nationalités parut dans la revue scientifique Nature dans le souci de formuler des recommandations pour la gestion des données de recherche (Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: 10.1038/sdata.2016.18 (2016). 🔗), Les idées avancées dans cette publication remontent, en effet, à un workshop tenu au Centre Lorentz de l'université de Leyde aux Pays Bas en janvier 2014 ayant comme sujet Jointly designing a data FAIRPORT.

Entretemps, ces idées, condensées dans l'acronyme FAIR, se sont établies comme point de repère dans le débat actuel concernant la gestion des données de recherche (ce qui s'est affirmé p.ex. lors de la rencontre réseaux du projet GeRDI en octobre 2018; cf. aussi FAIRGROUP der FORCE11-Community).

Voici les postulats clés, partiellement corrélatifs, qui se cachent derrière l'acronyme FAIR:

  • F — Findable
  • A — Accessible
  • I — Interoperable
  • R — Reusable

Ces derniers impliquent toute une série de conséquences quand il s'agit de gérer des données de recherche numériques.

Pour assurer la repérabilité des données il faut, en principe, au moins un portail central capable de traiter des demandes de recherche. Pour référencier les données de recherche – avant tout leur contenu ainsi que leur lieu de conservation – il est indiqué d'adopter le système des catalogues de bibliothèques, établies depuis longtemps. A éviter serait toute démarche impliquant des recherches réparties sur plusieurs sites.

Bien évidemment, les données doivent exister physiquement pour être trouvées. Dans ce contexte, c'est moins la question des solutions techniques qui pose problème, grâce p. ex. à la généralisation des centres de calcul en disposant, mais plutôt celle des responsablilités institutionnelles. Ici encore, les bibliothèques s'imposent en fait vu leur histoire, leur mission fondamentale de conserver le savoir et leur perspective de longévité; ce sont elles, il faut le dire, qui devraient, a priori, prendre en charge la conservation durable des données numériques. Dans la réalisation concrète, le choix du lieu d'emmagasinage ne joue qu'un rôle secondaire: soit les bibliothèques mettent en place et gèrent leurs propres bases de données, soit elles ont recours au service des centres de calcul.

L'un des points cruciaux concerne la conception et l'attribution des métadonnées assurant la repérabilité des données de recherche en question. Il semble incontournable d'employer au moins un schéma de métadonnées contraignant et hiérarchisé permettant la catégorisation des données de recherche selon leurs contenus en intégrant des vocabulaires également contraignants et contrôlés. VerbaAlpina a opté, pour l'instant, pour le schéma de Datacite-Schema, largement pratiqué, y compris par la bibliothèque universitaire de la LMU. L'emploi de plusieurs schémas de métadonnées serait possible mais seulement judicieux en les appliquant de façon conséquente à la totalité des données de recherche saisies. Des schémas de métadonnées subordonnés concernant des champs de recherche spécifiques peuvent s'avérer utiles en tant que compléments des schémas supérieurs.

Le terme (anglais) «accessible» se réfère avant tout à la libre accessiblilité des données, notamment sans restrictions légales comme p.ex. par le droit d'auteur. L'accessibilité constitue le facteur le moins contrôlable par ceux qui produisent et rassemblent des données. Dans beaucoup de cas les recueils de données ne sont pas seulement sujets au droit d'auteur mais à ceux de la personnalité. Pour cette raison, l'exigence d'accessibilité vise surtout à une pratique du côté des producteurs de données évitant la mise en place de restricitions individuelles quand il s'agit de données autrement libres de droits. Concrètement, il s'agit surtout de renoncer au copyright et d'appliquer un modèle de licence qui répond aux conditions du libre accès (open acccess). Dans le contexte scientifique on utilise souvent des licences Creative Commons (CC), cependant, toutes ne sont pas conformes aux critères de libre accès, l'interdiction d'exploitation commerciale notamment pouvant faire partie d'une licence CC contrevient au concept du libre accès. Cela s'explique par le fait qu'en principe, presque toute utilisation de données peut être interprètée comme und «exploitation commerciale», d'autant plus qu'il est quasiment impossible d'un point de vue juridique de tracer des délimitatons nettes (v. aussi l'article de méthodologie «Concession d'une licence»).

Tout comme la repérabilité des données, leur intéropérabilité se présente sous deux aspects différents, l'un technique et l'autre théorique et organisationnel. Pour réussir des connexions relationnelles entre données satisfaisantes, il est le plus souvent nécessaire de choisir une granulation logique, suffisamment fine et conforme à des règles, normalement définies au sein d'un champ de recherche donné. Dans ce contexte, les «données normalisés» jouent un rôle primordial: il s'agit de catégories conceptuelles prédéfinies et, idéalement, standardisées dont les instances (objets numériques) se distinguent grâce à des critères qualitativement et quantitativement bien définies, comme quoi elles sont singulières ou (angl.) «distinct». Dotées d'identifiants («IDs») numériques ou alphanumériques, les différentes instances d'une catégorie conceptuelle sont référencées sans ambiguïté. Le fait de granuler des ensembles de données en suivant les délimitations de certaines catégories et de leurs instances en combinaison avec l'application d'identifiants spécifiques permet finalement d'interconnecter ensembles de données isolés et contenus concordants. En revanche, pour obtenir une véritable plus-value il faut qu'il soit techniquement possible de faire référence à des objets de façon directe, afin de permettre de bouger entre des objets de deux ensembles de données différents avec un seul clic, ce qui ne semble réalisable qu'en attribuant son propre URL à tout et chacun de ces objets (cf. «granum»). De plus, pour satisfaire au postulat de durablilité, l'attribution d'un DOI pour chaque URL est indispensable.

La réutilisabilité d'ensembles de données, enfin, résulte du respect et de la mise en œuvre des postulats cités ci-dessus.

Chez VerbaAlpina on cherche à modeler tous les procédés et conventions relatifs au traitement de données en accord avec les principes FAIR. Thomas Krefeld voit dans cette démarche le fondement principal d'une éthique de recherche en humanités numériques (Thomas Krefeld [2018]: Linguistische Theorien im Rahmen der
digital humanities. Korpus im Text. Version 2 (05.11.2018, 11:35). Absatz 4. url: http://www.kit.gwi.uni-muenchen.de/?p=28010&v=2#p:4.). La repérabilité des données est assurée grâce aux collaborations engagées dans le cadre du projet e-humanities – interdisziplinär avec la bibliothèque universitaire de la LMU et le projet GeRDI qui est pris en charge par la Fondation allemande pour la recherche (DFG). De façon prioritaire, on attribue des métadonnées propres à chaque version de l'ensemble de données central du module VA_DB pour les transmettre sous diverses formes à la BU de la LMU qui assure a minima l'archivage dans la base de données Open Data. Par la suite, les métadonnées, tout au moins, sont incorporées dans l'index qui est actuellement mis en place dans le cadre du projet GeRDI. Le but est d'assurer la repérabilité centralisée des données rassemblées et traitées par VerbaAlpina par le biais du catalogue de la bibliothèque de la BU ainsi que du portail de recherche du projet GeRDI, encore en cours de développement. L'intégralité des données gérées par VerbaAlpina sont placées, dans la mesure du possible, sous une licence Creative Commons comprenant le libre accès (jusqu'à la version 18/1 CC BY SA 3.0 de, ab 18/2 CC BY SA 4.0). Quant à l'interopérabilité des données, on y parvient en choisissant un degré de granulation suffisamment fin et conforme au concept des données normalisées grâce au fait que des données normalisées existantes sont reliées aux données fournies par VerbaAlpina, ce qui se réalise par exemple dans le cas des données geógraphiques, se référant, entre autres, aux communes, ces dernières constituant le système de référence central du travail de VerbaAlpina. Dans le cas des catégories de données «type morpho-lexical» ainsi que «concept», primordiales pour VerbaAlpina, il n'existe pas encore de données normalisées auxquelles les données de VerbaAlpina pourraient se référer. VerbaAlpina essaie de créer des (catégories de) données normalisées en collaboration avec des institutions appropriées comme p.ex. la Bibliothèque nationale allemande (DNB). Pour maîtriser les exigences techniques d'une interopérabilité efficace, l'ensemble des données lexicales, d'importance primordiale, est archivé sous forme de paquets de données dans de nombreux fichiers de petite taille pouvant être ciblés par DOI sur Open Data LMU. En plus, chacun de ces fichiers est accompagné d'un fichier contenant des métadonnées en format Datacite ce qui permet de trouver les fichiers individuelles par le biais du catalogue de la bibliothèque.

(auct. Stephan Lücke – trad. Sonja Schwedler-Stängl)

Tags: Technologie de l'information



Profil de similarité ethnolinguistique  (Citer)

Du point de vue ethnolinguistique de ce projet, les types de base fondent l'espace alpin plurilingue. Afin d'offrir une représentation synthétique, deux fonctions de cartographie quantitative différentes sont prévues :
  1. Tout d'abord viser le lexique alpin, dont l'ensemble forme pour ainsi dire un type idéal fictif duquel les dialectes locaux se rapprochent plus ou moins. La cartographie, d'une similarité graduelle, inspirée par la représentation du champ gradient de la gasconité à l'ALG 6 y correspond.
  2. Puis cartographier (selon le modèle de l'ASD) la similarité relative de tous les lieux d'enquête, en comparant et en visualisant les types de base en commun d'un lieu d'enquête x et de n'importe quel autre lieu pris comme point de référence.


(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Linguistique Contexte extralinguistique



Public  (Citer)

voir Publikation

Tags: Page Web



Publication  (Citer)

La publication directe des résultats, indépendamment de maisons d'édition, fait partie intégrante du projet VerbaAlpina. Car tout ce qui est appelé publication ne sert pas à la PUBLICATION. Ainsi, le média papier traditionnel provoque maintenant le contraire de ce à quoi il était destiné : il retire des informations au public, informations qui devraient lui être le plus largement offertes vis-à-vis de la subvention de la recherche par des moyens publics et qui pourraient être fournies très facilement en utilisant les nouveaux médias. Les tirages papier de 200 ou 300 exemplaires, usuels en science, ne parviennent pas à atteindre le public, seulement une sphère privée exclusive. Vu la disponibilité des technologies de l'information, il n'y a aucune raison concluante de préférer l'impression comme moyen de diffusion du savoir ou de la considérer comme la seule possible.
Dans certaines sciences (à notre connaissance cela s'applique notamment à l'informatique), on peut même observer une tendance ces dernières années qui conduit à l'absurde vis-à-vis des possibilités techniques crées par les nouveaux médias: alors qu'il serait un jeu d'enfant à présent d'offrir un accès facile à des informations et des textes dans le monde entier, c'est exactement le contraire qui arrive en accordant l'accès seulement contre paiement. C'est même une régression par rapport à la publication traditionnelle sur papier que nous avons critiquée ci-dessus. Nous tenons donc à souligner nos mises en garde appuyées quant à de tels développements qui s'observent déjà dans les sciences humaines.

Mais la notion de la publication a changé. A proprement parler, la documentation de données à l'Internet est déjà une forme de la publication; de plus VerbaAlpina se considère
aussi comme instrument de publication de textes relatifs au projet.
Trois formats sont prévus pour cela :
  1. les termes et problèmes centraux de théorie et de méthodologie sont expliqués de manière concise sous l'onglet Méthodologie abgelegt.
  2. les examens analytiques détaillés de résultats ou de discussions théoriques ou méthodologiques peuvent être placés sous l'onglet Publications du projet.
  3. A l'aide d'un i-bouton en légende peuvent s'ouvrir les commentaires concernant les données de la carte interactive en ligne (par exemple commentaires sur les réalités extra-linguistiques (les concepts) et leur appellation dialectale avec types morpho-lexical et type de base). Ces commentaires peuvent être faits très facilement par les collaborateurs du projet ou par des personnes externes.


Fonction de commentaire accessible par la légende.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Domaines de fonction