Méthodologie

Tri

Montrer toutes les contributions

A   B   C   D   E   F   G   H   I   J  K  L   M   N   O   P   Q  R   S   T   U   V  W   X  Y  Z 


Description de concept  (Citer)

Les concepts sont saisis comme suit dans le tableau KONZEPTE (concepts) de la base de données : existe une dénomination lexicalisée pour un concept, alors cette dénomination s'inscrit dans la case 'Name_F' (dénomination française) de la base de données. Si la lexicalisation manque, la case reste blanche. Indépendamment de l'existence ou non d'une dénomination, le concept sera décrit dans la case 'Beschreibung_F' (description française) en suivant une procédure fixe. La voici présentée à l'aide de l'exemple du concept 'ÉCRÉMOIR' (ID_Konzept 142; identifiant du concept dans la base de données): le concept mentionné est désigné par un lexème spécifique, on inscrit donc ÉCRÉMOIR dans 'Name_F'. La description prévoit l'ordre hiérarchique suivant: ustensile, fonction, matériau, (éventuellement) forme. Appliqué au concept de l'exemple, il en résulte la description suivante: USTENSILE, POUR ÉCRÉMER, LOUCHE.
Si possible ou si c'est nécessaire, il faut suivre ces règles supplémentaires: les nombres 1-10 sont écrits en toutes lettres; dans la description d'un processus, d'une activité etc. on peut ou utiliser "pour+infinitif" ou "pour+article+substantif". L'observation de ces modèles permet des traductions analogues, la formation de catégories indépendantes de langues particulières à des niveaux différents d'abstraction (->RÉCIPIENTS ->RÉCIPIENTS POUR LE TRANSPORT ->RÉCIPIENTS DE BOIS etc.), des corrections automatisées et une recherche transparente. Tous les concepts sont saisis de cette manière dans les langues allemande, italienne, française, slovène et romanche.

(auct. Giorgia Grimaldi | Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Technologie de l'information



Désignation  (Citer)

Par 'désignation', VerbaAlpina entend l'instance idéalisée d'un mot, écrit, parlé ou pensé, qui dénomme un ou plusieurs concepts et, renvoie le cas échéant à des choses concrètes. Une séquence spécifique de plusieurs mots, pas nécessairement un mot seul, peut aussi assumer ces fonctions (séquence appelée lexie plurilexicale). Concernant la catégorie 'concept' il y a une relation m:n, en termes informatiques : une désignation polysémique peut désigner plusieurs concepts; et vice versa, un concept peut être désigné par une multitude de désignations synonymes.





(auct. Stephan Lücke – trad. Susanne Oberholzer)

Tags: Linguistique



Dictionnaires de référence  (Citer)

Dans le cadre de la typisation (réduction à types), centrale pour le projet VerbaAlpina, les dictionnaires de référence ont une grande importance. Pour garantir la comparabilité du matériel, toutes les données qui sont extraites des sources – aussi bien des types phonétiques que des types morpho-lexicaux – se réfèrent à un cadre de référence lexicographique. Le travail de réduction à types est fait par les employés de VerbaAlpina et s'appuie sur leur expertise linguistique. Ce travail est donc un travail interprétatif et ne prétend pas à la validité incontestable. Les données extraites des sources sont liées aux lemmes des dictionnaires de référence mentionnés ci-dessous. Dans une famille linguistique, les données linguistiques qui doivent être réduites à types sont liées aux lemmes appropriés des dictionnaires de références spécifiques pour la région linguistique. Vice-versa il est donc possible de trouver toutes les données classées de VerbaAlpina en partant des lemmes des dictionnaires de référence. Sur ce point, VerbaAlpina représente un élargissement organique des dictionnaires de référence utilisés, élargissement techniquement réalisable sans grands problème au moyen de mises en relation.
Si aucun des dictionnaires de référence définis ne présente de lemme approprié, VerbaAlpina fixe un type morpho-lexical orthographique qui prend dorénavant le statut de référence et auquel toutes les autres données linguistiques de cette catégorie morpho-lexicale peuvent être référées. Par cet auto-référencement, VerbaAlpina obtient aussi le statut de dictionnaire de référence.
Comme cette attribution aux dictionnaires de référence correspond à un travail demandant interprétation, VerbaAlpina permet aux scientifiques et aux profanes de commenter de façon controversée des attributions de lemme. Cela permet aux personnes externes de faire des réductions à types alternatives qui peuvent à leur tour être commentées et discutées.

Les mors des régions germaniques sont liés si possible aux lemmes de :

  • Schweizerisches Idiotikon. Schweizerdeutsches Wörterbuch
  • Grimm, Jacob und Wilhelm (1854-1961): Deutsches Wörterbuch von Jacob und Wilhelm Grimm, 16 volumes subdivisés en 32 tomes, Leipzig (Quellenverzeichnis Leipzig 1971) (DWB)
  • Duden (pris en considération à cause de son importance effective et de l'abondance de matériel- malgré la pauvreté des informations lexicographiques présentées)

Les mots des régions romanes sont liés si possible aux lemmes de:

Les mots des régions slaves sont liés si possible aux lemmes de :
  • Slovar slovenskega knjižnega jezika (SSKJ)

Si nécessaire (spécialement en vue des étymons), le dictionnaire de référence pour la langue latine est :
  • Georges, Karl Ernst (1913-1916, Reprint 1998): Ausführliches lateinisch-deutsches Handwörterbuch. Aus den Quellen zusammengetragen und mit besonderer Bezugnahme auf Synonymik und Antiquitäten unter Berücksichtigung der besten Hilfsmittel ausgearbeitet, 2 Bände, Darmstadt.
Pour la détermination de l'étymologie des types de base, ce sont les dictionnaires suivants qui servent de référence :
  • Wartburg, Walther von (1922-1967): Französisches Etymologisches Wörterbuch. Eine Darstellung des galloromanischen Sprachschatzes, 25 Bände, Basel (FEW), avec ses commentaires (qui ferment les articles) souvent fondamentaux au-delà du français ou même du roman.
  • Kluge
  • DELI
  • Bezlaj et sous l'édition la plus récente Snoj. Cf. généralement pour les étymologies slaves Berneker
  • Si possible, les lemmes de l'AWB servent de forme de référence pour les types de base germaniques, car ils représentent les formes documentées les plus anciennes.


(auct. Thomas Krefeld | Stephan Lücke – trad. Susanne Oberholzer)

Tags: Linguistique



Digital Object Identifier (DOI)  (Citer)

Le Digital Object Identifier (DOI) est une adresse mondiale unique et inchangeable, grâce à laquelle les ressources électroniques, comme par exemple les sites web, sont accessibles. L’accessibilité reste garantie même lorsque l'"Uniform Resource Locator" (URL) d’une ressource change. L'avantage principal du système DOI est donc de pouvoir citer pérennement les ressources électroniques. On peut y accéder par un simple mapping : la fondation DOI tient un registre dans lequel l’actuelle URL d’une ressource est systématiquement associée à un DOI. Lors de la modification d’une URL s’ensuit la modification correspondante dans le registre de la fondation DOI. Les modifications doivent être communiquées à la fondation DOI par l’intermédiaire des organisations associées (par exemple les bibliothèques) qui ont fait enregistrer les DOI en question. La saisie dans le registre DOI par VerbaAlpina se fait en passant par le "Referat Elektronisches Publizieren" de la bibliothèque universitaire de la LMU qui effectue quant à elle l’enregistrement non pas directement auprès de la fondation DOI, mais auprès de DataCite, lui-même une composante de la fondation DOI.

Le DOI de VerbaAlpina est le suivant : 10.5282/verba-alpina. Le préfixe, les chiffres (10.5282), se rapporte à l’organisation enregistreuse, dans ce cas la bibliothèque universitaire de la LMU. Pour qu’une citation, par exemple dans une dissertation scientifique, renvoie directement au portail de VerbaAlpina, il faut que le DOI soit intégré dans l’URL de la fondation DOI : http://dx.dopai.org/10.5282/verba-alpina.
La convocation immédiate de données spécifiques partielles sur le portail VerbaAlpina (par exemple de données singulières dans le module médiathèque de VerbaAlpina [VA_MT]) par l’intermédiaire du DOI n’est pas possible. Il faudrait un DOI supplémentaire pour chaque donnée partielle de VerbaAlpina.

Le Uniform Resource Name (URN) a presque le même objectif que le DOI, et son mode de fonctionnement est à peu près le même. A la différence du DOI, on peut cependant enregistrer de multiples URL pour une ressource. Cela peut être intéressant si les ressources, afin de garantir pérennité ou cas de défaillance, sont déposées dans différents serveurs avec des URL différents leur correspondant. Un certain inconvénient des URN par rapport aux DOI réside dans le fait que le registre URN n’est pas administré par une institution unique, mais par différentes organisations nationales décentralisées. Pour l’Allemagne, c’est la Bibliothèque Nationale Allemande (Deutsche Nationalbibliothek) qui prend en charge cette mission, c’est pourquoi le serveur régissant les URN (le Resolver) doit être convoqué pour les ressources qui sont enregistrées sur la DNB. L’URN de VerbaAlpina est la suivante : urn:nbn:de:bvb:19-verba-alpina-8, l’URL correspondante au resolver DNB menant au portail de VerbaAlpina est http://nbn-resolving.de/urn:nbn:de:bvb:19-verba-alpina-8.
De même que dans le cas des DOI, la convocation immédiate de données spécifiques partielles sur le portail de VerbaAlpina par l’intermédiaire de l’URN n’est pas possible.



(auct. Stephan Lücke | Julian Schulz [ITG])

Tags: Technologie de l'information



Documentation  (Citer)

VerbaAlpina documente la variation dialectale au sein d'un espace ethnographique défini. Le cadre onomasiologique est délimité par des techniques culturelles et des modes de vie devenus conventionnels, ce dans des conditions environnementales spécifiques et indépendantes des différentes cultures en place. De tels espaces, desquels les Alpes représentent un prototype, n'ont pas pu être saisis dans toute leur mesure par les traditions de recherche linguistiques, parce que les disciplines partielles qui concernent la constitution d'espaces – la géographie linguistique, la dialectologie ou encore la géo-linguistique – s'orientent presque sans exception à des frontières politiques et/ou linguistiques déjà tracées. On arrive certainement à comprendre l'orientation spatiale des études centrales, à maints égards toujours déterminantes (cf. par ex. l'AIS et le FEW), mais on n'est souvent pas du même avis. Justement, ce sont les régions culturelles plurilingues qui sont les plus particulièrement fascinantes, comme par ex. la région entre la côte adriatique monténégrino-albanaise et le Danube, et qui ne sont pourtant pas prises en considération par la recherche établie, dirigée selon des présuppositions philologiques pensées nationalement. L'Atlante linguistico mediterraneo, qui a été planifié de manière ambitieuse, aurait pu devenir un grand projet novateur, malheureusement il n'a jamais dépassé la phase initiale.
VerbaAlpina vise la région alpine.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Domaines de fonction



Données complémentaires  (Citer)

Dans le cadre d'une approche inductive à l'espace culturel les données démographiques et institutionnelles sont intéressantes dès qu'elles se révèlent être géo-référenciables. A ce type de données appartiennent les informations concernant l'histoire de l'habitat, en particulier par rapport aux institutions ecclésiastiques ou étatiques. Les voies de communication aussi, en particulier les cols de montagne, sont extrêmement importantes (cf.). Les données écologiques et géophysiques sont importantes à partir du moment où elles sont en rapport avec l'histoire de l'habitat. Cela est le cas par exemple des zones de végétation, qui permettent ou exigent certaines utilisations (par ex. l'alpage suppose une altitude au-dessus de la limite de celle des forêts et des arbres).(http://www.slf.ch/forschung_entwicklung/gebirgsoekosystem/themen/baumgrenze/index_FR)

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Contexte extralinguistique



Données d'autorité  (Citer)

L'origine de la notion des données d'autorité se trouve dans le système de bibliotèques. En catalogisant des publications, par exemple, l'identificaton sans équivoque des auteurs est indispensable pour assurer l'attribution correcte des œuvres, indépendemment de variantes graphiques ou de changements de noms. Cette exigence porte également sur l'indexage des titres de publications où il s'agit par exemple d'identifier sans équivoque et de relier des termes géographiques pouvant faire l'objet d'ouvrages diverses. Ces contraintes on mené au développement de listes onomasiologiques, individuelles dans un premier temps selon les différentes bibliothèques.

Avec les nouvelles techniques d'interconnexion d'ensembles de données, nées dans les années 1970, il fallut bientôt concorder les indexes jusqu'alors individuels des différentes bibliothèques. Par conséquent, les bibliothèques commencèrent au cours des années 1980, au plus tard – les premières conceptions eurent lieu vers la fin des années 1970 – à harmoniser les indexes individuels pour obtenir une consistence englobant toutes les bibliothèques. Au début, des registres séparés pour les personnes (allem. Personennamendatei, PND) et les collectivités publiques (allem. Körperschaftsdatei, GKD) ainsi qu'une nomenclature de mots-clés (allem. Schlagwortnormdatei, SWD) furent établis. Après un moment, la séparation thématique résultante s'avéra inappropriée, d'autant que les personnes et les collectivités peuvent figurer non seulement commes des auteurs ou des éditeurs mais à aussi comme l'objet de publications à leur tour, devant également se considérer lors des indexations sur la base du fichier d'autorité des mots-clés. C'est pour cette raison qu'entre 2008 et 2012, les trois fichiers d'autorité individuels (y compris le fichier d'autorité des titres uniformes des archives de musique allemandes) s'unifièrent dans un effort commun de la Bibliothèque nationale allemande et des associations de bibliothèques germanophones pour former un type d'autorité s'appelant GND (allem. Gemeinsame Normdatei, GND). Ce dernier est à disposition du public depuis 2012 dans des formats divers (MARC 21 Authority, MARC21-xml et RDFxml) et s'utilise de plus en plus pour des buts d'indexage en dehors du système de bibliothèques. Les projets en humanités numériques BMLO (Bayerisches Musiker-Lexikon online) et Kaiserhof réalisés par l'ITG (allem. IT-Gruppe Geisteswissenschaften), notamment, s'en servent pour assurer l'identification sans équivoque des personnes.

Sous l'adresse http://ognd.bsz-bw.de/ (centre de service bibliothécaire de Bade-Wurtemberg) on a accès à un outil de recherche compfortable pour consulter le GND. Dans le monde, il existe des types d'autorité comparables au GND, gérés dans la plupart des cas par des bibliothèques. Depuis 2003, le projet VIAF (Virtual International Authority File), mis sur pied dans une collaboration entre la Bibliothèque nationale allemande et la Bibliothèque du Congrès, poursuit le but de réunir et rendre accessibles ces ensembles de données au sein d'un seul système.
Cependant, si en théorie le système des tyes d'autorité permet l'identification sans équivoque des personnes et des concepts, l'exploitation pratique dépend largement de l'implémentation technique dans les systémes électroniques des catalogues de bibliothèques. Dans les catalogues de la Bibliothèque nationale allemande et de la Bayerische Staatsbibliothek (BSB), la recherche du mot-clé "Homère" donne aussi des résultats que le système bibliothécaire a saisi sous "Homer". Inversément, en cliquant sur un nom d'auteur hyperlié dans le catalogue en ligne de la BSB on obtient actuellement (oct. 2018) non seulement les titres de l'individu en question mais aussi ceux d'autres auteurs du même nom.

Le concept des données d'autorité s'étant originé dans le contexte du système de bibliothèques son utilisation s'est cependant généralisé entretemps dans d'autres domaines. À titre exemplaire on peut citer les projets suivants: Geonames (entité geographica), Pleiades (entité geographica antiques) ou encore Glottolog (entité langues internationales).

Les données d'autorité sont particulièrement importants en vue des exigences d'interopérabilité, postulées entre autres par l'initiative FAIR. Chaque donnée d'autorité définie et dotée d'un identifiant (alpha)numérique permet non seulement l'intégration dans l'exploitation sémantique des catalogues de bibliothèques mais aussi l'interconnexion logique et technique d'entités correspondantes faisant partie d'ensembles de données indépendants.

Du point de vue de VerbaAlpina, la création des catégories de données d'autorité «type morpho-lexical» (⇒ Réduction à types et «concept» serait méthodologiquement rigoureux et, de là, souhaitable. Ainsi, on aurait la possibilité d'attribuer des identifiants aux types morpho-lexicaux et aux concepts, ce qui permettrait le référencement de données lexicales à l'échelle mondiale, même indépendemment, dans le cas des concepts, des langues individuelles. Quelques efforts dans cette direction se font remarquer: dans les ensembles de données stucturés du projet Wikidata, par exemple, on attribue des «identifiants Q» pour identifier sans équivoque des concepts extralinguistiques, fournissant ainsi une référence commune et identique pour tous les articles Wikipédia et leurs versions multilingues traitant le même sujet. Le concept du nom allemand ALMHÜTTE (chalet d'alpage), par exemple, est identifié sans équivoque sur Wikidata avec l'ID Q2649726. Dans la fiche Wikidata correspondante, on trouve des liens vers tous les articles Wikipédia, actuellement (octobre 2018) représentés en sept langues, qui sont réliés à cet identifiant. Du total des concepts saisies par VerbaAlpina se montant à 2629, 400 ont pu être reliés à un identifiant Q jusqu'à présent. D'une manière générale, les identifiants Q sont enregistrés, dans la mesure où ils existent, dans l'ensemble de données de VerbaAlpina. En revanche, ni Wikipédia ni Wikidata, respectivement, semblent disposer d'un système d'identification comparable au niveau des types morpho-lexicaux. Les identifiants L déjá en existence sont attribués à des formes langagières, mais il est peu clair s'il s'agit de types précisément définis.

A l'instar du modèle des données d'autorité, VerbaAlpina attribue leur propres identificateurs aux catégories de données (entités) «concept», «type morpho-lexical» (cf. Réduction à types) et «communauté», les identificateurs pouvant être référencés grâce au data mapping à des systèmes de données d'autorités plus établis comme p.ex. les identifiants Q de Wikidata. En outre, VerbaAlpina s'emploie à faire entrer la catégorie de données «type morpho-lexical» dans la systématique du Gemeinsame Normdatei (GND). Cet objectif prend appui sur la prémisse que le GND doit s'élargir structurellemnt mais aussi au niveau du contenu en fonction des exigences de la science et des institutions et personnes du domaine culturel. Un échange à propos de ce sujet est prévu en décembre 2018 dans le cadre de la conférence GNDCon 2018.

Le GND distingue actuellement les entités suivants: collectivité publique (sigle: b), conférence (f), donnée géographique (g), personne (non individualisée) (n), personne (individualisée) (p), objet référentiel (s), œuvre (u) (http://www.dnb.de/SharedDocs/Downloads/DE/DNB/standardisierung/inhaltserschliessung/entitaetenSatztypen.pdf?__blob=publicationFile). Par ailleurs, dans une fiche du GND appartenant à la catégorie «Arbeitshilfen zur gemeinsamen Normdatei (GND)» on trouve l'information que le code d'entité «slz», représentant une sous-catégorie de l'entité «objets référentiels», a été réservé pour les données de la catégorie «lettres, morphèmes, mots comme objet de recherches linguistiques». Dans cette logique il serait évident de relier les données d'autorité de VerbaAlpina avec celles de cette catégorie.

Référence:
Capellaro 2003

(auct. Stephan Lücke – trad. Sonja Schwedler-Stängl)

Tags: Technologie de l'information



Données d'entrée  (Citer)

Au sein de VerbaAlpina sont utilisées exclusivement des données géoréférenciées au moins sur le territoire d'une commune, et si possible encore plus précisément (par exemple des photos d'alpages). À l'égard de données linguistiques particulièrement importantes, deux types sont à distinguer : d'un côté, les données remontant directement aux énoncés des informateurs individuels – comme par exemple les attestations de certains atlas linguistiques (spécialement les atlas romans) ou de la Bayerische Dialektdatenbank (BayDat); ces énoncés sont décomposés selon leurs éléments constitutifs, les tokens. De l'autre, des formes déjà typisées par les éditeurs – en effet certains atlas, par exemple le SDS, le VALTS ainsi que les dictionnaires, ne contiennent pas d'énoncés de locuteur, de sorte qu'il n'est pas possible de remonter jusqu'aux tokens.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Linguistique