Méthodologie

Pour les contributions contenues dans la section Méthodologie, la recherche en plein texte n’est pas encore possible. Ce type de recherche se trouve actuellement en cours de planification et développement et sera disponible à partir de la prochaine version de VerbaAlpina. Jusqu’à ce moment, nous conseillons de cliquer sur « montrer toutes les contributions » et d’utiliser la recherche en plein texte du navigateur (dans la plupart des cas Ctrl+F).
Tri

Montrer toutes les contributions

A   B   C   D   E   F   G   H   I   J  K  L   M   N   O   P   Q  R   S   T   U   V  W   X  Y  Z 


Notation  (Citer)

Dans les contributions de texte, les principes de notation suivants sont utilisés : les formes linguistiques (exemples d'attestations) sont écrites en italique ; la signification est marquée par des guillemets simples. Par ex. ita. formaggio 'fromage'. Les catégories extralinguistiques (concepts) sont représentées par des majuscules. La différence entre sens linguistique et concept est importante dans les cas où il n'y a pas de mot pour certains concepts dans certaines langues ou dialectes, comme par exemple FROMAGE ISSU DU LIQUIDE APRÈS LA DEUXIÈME COAGULATION DE LA PÂTE. On appelle cela ita. ricotta, fra sérac, alémanique Ziger etc.; un mot en allemand standard manque pourtant.

(auct. Thomas Krefeld – trad. Susanne Oberholzer)

Tags: Linguistique Page Web



Notices d'autorité  (Citer)

L'origine de la notion des notices d'autorité se trouve dans le système de bibliotèques. En catalogisant des publications, par exemple, l'identificaton sans équivoque des auteurs est indispensable pour assurer l'attribution correcte des œuvres, indépendemment de variantes graphiques ou de changements de noms. Cette exigence porte également sur l'indexage des titres de publications où il s'agit par exemple d'identifier sans équivoque et de relier des termes géographiques pouvant faire l'objet d'ouvrages diverses. Ces contraintes on mené au développement de listes onomasiologiques, individuelles dans un premier temps selon les différentes bibliothèques.

Avec les nouvelles techniques d'interconnexion d'ensembles de données, nées dans les années 1970, il fallut bientôt concorder les indexes jusqu'alors individuels des différentes bibliothèques. Par conséquent, les bibliothèques commencèrent au cours des années 1980, au plus tard – les premières conceptions eurent lieu vers la fin des années 1970 – à harmoniser les indexes individuels pour obtenir une consistence englobant toutes les bibliothèques. Au début, des registres séparés pour les personnes (allem. Personennamendatei, PND) et les collectivités publiques (allem. Körperschaftsdatei, GKD) ainsi qu'une nomenclature de mots-clés (allem. Schlagwortnormdatei, SWD) furent établis. Après un moment, la séparation thématique résultante s'avéra inappropriée, d'autant que les personnes et les collectivités peuvent figurer non seulement commes des auteurs ou des éditeurs mais à aussi comme l'objet de publications à leur tour, devant également se considérer lors des indexations sur la base du fichier d'autorité des mots-clés. C'est pour cette raison qu'entre 2008 et 2012, les trois fichiers d'autorité individuels (y compris le fichier d'autorité des titres uniformes des archives de musique allemandes) s'unifièrent dans un effort commun de la Bibliothèque nationale allemande et des associations de bibliothèques germanophones pour former un type d'autorité s'appelant GND (allem. Gemeinsame Normdatei, GND). Ce dernier est à disposition du public depuis 2012 dans des formats divers (MARC 21 Authority, MARC21-xml et RDFxml) et s'utilise de plus en plus pour des buts d'indexage en dehors du système de bibliothèques. Les projets en humanités numériques BMLO (Bayerisches Musiker-Lexikon online) et Kaiserhof réalisés par l'ITG (allem. IT-Gruppe Geisteswissenschaften), notamment, s'en servent pour assurer l'identification sans équivoque des personnes.

Sous l'adresse http://ognd.bsz-bw.de/ (centre de service bibliothécaire de Bade-Wurtemberg) on a accès à un outil de recherche compfortable pour consulter le GND. Dans le monde, il existe des types d'autorité comparables au GND, gérés dans la plupart des cas par des bibliothèques. Depuis 2003, le projet VIAF (Virtual International Authority File), mis sur pied dans une collaboration entre la Bibliothèque nationale allemande et la Bibliothèque du Congrès, poursuit le but de réunir et rendre accessibles ces ensembles de données au sein d'un seul système.
Cependant, si en théorie le système des tyes d'autorité permet l'identification sans équivoque des personnes et des concepts, l'exploitation pratique dépend largement de l'implémentation technique dans les systémes électroniques des catalogues de bibliothèques. Dans les catalogues de la Bibliothèque nationale allemande et de la Bayerische Staatsbibliothek (BSB), la recherche du mot-clé "Homère" donne aussi des résultats que le système bibliothécaire a saisi sous "Homer". Inversément, en cliquant sur un nom d'auteur hyperlié dans le catalogue en ligne de la BSB on obtient actuellement (oct. 2018) non seulement les titres de l'individu en question mais aussi ceux d'autres auteurs du même nom.

Le concept des données d'autorité s'étant originé dans le contexte du système de bibliothèques son utilisation s'est cependant généralisé entretemps dans d'autres domaines. À titre exemplaire on peut citer les projets suivants: Geonames (entité geographica), Pleiades (entité geographica antiques) ou encore Glottolog (entité langues internationales).

Les données d'autorité sont particulièrement importants en vue des exigences d'interopérabilité, postulées entre autres par l'initiative FAIR. Chaque notice d'autorité définie et dotée d'un identifiant (alpha)numérique permet non seulement l'intégration dans l'exploitation sémantique des catalogues de bibliothèques mais aussi l'interconnexion logique et technique d'entités correspondantes faisant partie d'ensembles de données indépendants.

Du point de vue de VerbaAlpina, la création des catégories de notices d'autorité «type morpho-lexical» (⇒ Réduction à types et «concept» serait méthodologiquement rigoureux et, de là, souhaitable. Ainsi, on aurait la possibilité d'attribuer des identifiants aux types morpho-lexicaux et aux concepts, ce qui permettrait le référencement de données lexicales à l'échelle mondiale, même indépendemment, dans le cas des concepts, des langues individuelles. Quelques efforts dans cette direction se font remarquer: dans les ensembles de données stucturés du projet Wikidata, par exemple, on attribue des «identifiants Q» pour identifier sans équivoque des concepts extralinguistiques, fournissant ainsi une référence commune et identique pour tous les articles Wikipédia et leurs versions multilingues traitant le même sujet. Le concept du nom allemand ALMHÜTTE (chalet d'alpage), par exemple, est identifié sans équivoque sur Wikidata avec l'ID Q2649726. Dans la fiche Wikidata correspondante, on trouve des liens vers tous les articles Wikipédia, actuellement (octobre 2018) représentés en sept langues, qui sont réliés à cet identifiant. Du total des concepts saisies par VerbaAlpina se montant à 2629, 400 ont pu être reliés à un identifiant Q jusqu'à présent. D'une manière générale, les identifiants Q sont enregistrés, dans la mesure où ils existent, dans l'ensemble de données de VerbaAlpina. En revanche, ni Wikipédia ni Wikidata, respectivement, semblent disposer d'un système d'identification comparable au niveau des types morpho-lexicaux. Les identifiants L déjá en existence sont attribués à des formes langagières, mais il est peu clair s'il s'agit de types précisément définis.

A l'instar du modèle des données d'autorité, VerbaAlpina attribue leur propres identificateurs aux catégories de données (entités) «concept», «type morpho-lexical» (cf. Réduction à types) et «communauté», les identificateurs pouvant être référencés grâce au data mapping à des systèmes de notices d'autorités plus établis comme p.ex. les identifiants Q de Wikidata. En outre, VerbaAlpina s'emploie à faire entrer la catégorie de données «type morpho-lexical» dans la systématique du Gemeinsame Normdatei (GND). Cet objectif prend appui sur la prémisse que le GND doit s'élargir structurellemnt mais aussi au niveau du contenu en fonction des exigences de la science et des institutions et personnes du domaine culturel. Un échange à propos de ce sujet est prévu en décembre 2018 dans le cadre de la conférence GNDCon 2018.

Le GND distingue actuellement les entités suivants: collectivité publique (sigle: b), conférence (f), donnée géographique (g), personne (non individualisée) (n), personne (individualisée) (p), objet référentiel (s), œuvre (u) (http://www.dnb.de/SharedDocs/Downloads/DE/DNB/standardisierung/inhaltserschliessung/entitaetenSatztypen.pdf?__blob=publicationFile). Par ailleurs, dans une fiche du GND appartenant à la catégorie «Arbeitshilfen zur gemeinsamen Normdatei (GND)» on trouve l'information que le code d'entité «slz», représentant une sous-catégorie de l'entité «objets référentiels», a été réservé pour les données de la catégorie «lettres, morphèmes, mots comme objet de recherches linguistiques». Dans cette logique il serait évident de relier les données d'autorité de VerbaAlpina avec celles de cette catégorie.

Référence:
Capellaro 2003

(auct. Stephan Lücke – trad. Christina Mutter | Sonja Schwedler-Stängl)

Tags: Technologie de l'information



Numérisation  (Citer)

Dans le contexte de VerbaAlpina, par numérisation on n'entend pas simplement l'utilisation d'ordinateurs pour le traitement électronique des données, mais surtout et essentiellement l'exploitation numérique en profondeur par la *structuration* et la catégorisation systématiques et transparentes du matériel.



Au sein du projet, c'est presque exclusivement le modèle relationnel qui est utilisé, dans lequel les données sont organisées en forme de tableau. Les tableaux se composent de lignes (= enregistrements, tuples) et de colonnes (= attributs, cases, propriétés); chaque tableau peut être agrandi dans chaque direction en ajoutant des lignes et des colonnes. Entre les tableaux existent des relations logiques, qui permettent des associations cohérentes et les représentations synoptiques correspondantes (dites "joins") de deux ou plusieurs tableaux. Pour la gestion des tableaux, VerbaAlpina utilise actuellement le système de gestion de base de données MySQL. Les tableaux ne sont pas figés par ce système, ils peuvent être exportés à tout moment, par ex. sous forme de texte avec des délimiteurs univoquement définissables pour les limites de case et d'enregistrement (dits séparateurs) avec les noms de colonnes et la documentation des relations logiques (modèle entité-association). La structure XML, souvent employée actuellement, n'est pas utilisée au niveau du plan opérationnel de VerbaAlpin,. Dans le cadre de la conception d'interface pourtant, XML est utilisé comme format d'exportation.

Aux côtés de la structuration logique des données, c'est le codage des caractères qui tient le second rôle principal dans le contexte du mot-clé "numérisation". Ce domaine est de la plus grande importance, en particulier en vue de l'archivage longue durée des données et il doit être géré de manière prévoyante. Autant que possible, VerbaAlpina s'oriente au tableau de codage et selon les prescriptions du Consortium Unicode. Au cas où la numérisation concerne des caractères qui ne sont pas encore intégrés par le tableau Unicode, la saisie digitale de données d'un caractère isolé se fait de préférence en sérialisant le caractère sous forme d'un ordre de caractères du bloc Unicode x21 jusqu'à x7E (à l'intérieur du bloc ASCII). Les affectations correspondantes sont renseignées dans des tableaux spéciaux, une conversion future en valeurs Unicode, lorsqu'elles seront disponibles, reste alors possible.

(auct. Stephan Lücke – trad. Susanne Oberholzer)

Tags: Linguistique Technologie de l'information