Archiv der Kategorie: VA_Beitrag

VerbaAlpina erklärt sich selbst (in 10 Sätzen)


(282 Wörter)

Dieser Beitrag versteht sich als eine Vorstellung des Projekts VerbaAlpina (VA) in 10 Kernsätzen; es handelt sich jedoch nicht um einen Beitrag ÜBER das Projekt, denn das Projekts präsentiert sich gewissermaßen selbst  in Gestalt ausgewählter Zitate und Materialien, die auch unabhängig von dieser Vorstellung über die Nutzeroberfläche abrufbar sind. Im Vordergrund steht die sprachwissenschaftliche Seite – die informationstechnische Seite wird im komplementären Vortrag von Stephan Lücke in den Vordergrund gestellt. Grundsätzlich handelt es sich jedoch um die beiden untrennbaren Seiten ein und derselben Medaille.

 

  1. VA ist eine webbasierte Forschungsumgebung.
  2. Gegenstand von VA ist der dialektale Wortschatz  der drei Sprachfamilien im Alpenraum (Karte).
  3. VA integriert unterschiedliche georeferenzierbare Quellen, nämlich Sprachatlanten, Wörterbücher und Crowdsourcing.
  4. VA dokumentiert Wortareale, die nicht selten die Grenzen einer der drei Sprachfamilien überschreiten und versteht sich daher als interlinguale Geolinguistik.
  5. Die Auswahl des dokumentierten Wortschatzes erfolgt in der Tradition der romanistischen Ethnolinguistik.
  6. VA visualisiert den erfassten Wortschatz durch eine interaktive Karte.
  7. Die interaktive Karte wird vom Nutzer über komplementäre Filter gesteuert, die einerseits von der Sache, dem außersprachlichen KONZEPT, und andererseits, vom Wort, der dialektalen Bezeichnung, ausgehen.
  8. Jede interaktive Karte verweist auf Referenzwörterbücher und vermittelt so vielfältige  lexikographische Hinweise zu jeder dokumentierten Form, wie z.B. alemannische Bezeichnung Anke(n) ‘Butter’ in Grindelwald (Berner Oberland) oder die romanische Bezeichnung barko ‘Almstall’ in Strigno (Trentino) zeigen.
  9. Das Lexicon Alpinum gibt gelegentlich auch projekteigene Kommentare, wie im Fall von Anke (m.) (gem.), in jedem Fall jedoch Normdaten (Q-IDs),  die das jeweilige außersprachliche Konzept identifizieren und die mit einem Link auf das Wikidata-Projekt hinterlegt sind, wie z.B. im Fall von BUTTERFASS.
  10. VerbaAlpina folgt den FAIR-Prinzipien und leistet dadurch einen konstruktiven Beitrag zur Überführung der Sprachwissenschaft in die Digital Humanities.

VerbaAlpina – Digital Geolinguistics Dedicated to the Lexical Analysis of the Alpine Region (Zitieren)

Stephan Lücke
(5722 Wörter)

Abstract

Since 2014 the DFG-funded long term project VerbaAlpina (VA) is run at the Ludwig-Maximilians-University of Munich (LMU). VA is a cooperation of the Institute of Romance Studies and the LMU Center for Digital Humanities (DH; IT-Gruppe Geisteswissenschaften).

The project focuses on lexical variation throughout the Alpine area as defined by the so-called Alpine Convention (https://www.alpconv.org/). Whereas geolinguistic research within the Alpine region is traditionally orientated towards the spread of national languages and towards political borders, VA takes the homogeneous natural environment of the mountaneous region and the resulting uniform habitat conditions and ways of living as the guiding parameters defining its area of research.

VA is conceptualized as a strictly digital project that uses web technology for various purposes such as documentation, publication and visualisation. VA takes its data from traditional geolinguistic publications, mainly linguistic atlases and suitable dictionaries (i.e. dictionaries providing geographic information). The strictly digital approach is associated with several challenges starting from the difficulties regarding the transcription of the sometimes complex phonetic characters that are used especially in some of the linguistic atlases. VA has developed a series of specific reusable and freely available online tools that are used within the workflow of digitizing data from the printed sources. Another tool, the so-called Crowdsourcing tool, was built for gathering speech data from online users with the aim of filling documentation gaps that result from inconsistencies of the available printed sources.

An interactive online map that is using performant up-to-date graphical technology (WebGL) offers suggestive qualitative and quantitative visualisation of geographic distribution patterns from onomasiological and/or semasiological perspectives. These can also be combined with non linguistic data such as the sites of latin inscriptions.

In addition to the geolinguistic core themes of the project, VA is providing methodological reflexion on many of the issues deriving from the strictly digital orientation that should be of interest also beyond the borders of the project and even beyond the field of geolinguistics. In general, VA is looking for perspectives and solutions that allow the linkage of lexical data across so far isolated domains of geolinguistic research projects with the option of real interoperability (the “I” in the acronym FAIR).

The talk will provide more detailed information on the mentioned aspects of the project VerbaAlpina.


Talk*

One word in advance: It is still common to work with PowerPoint presentations on occasions like this. VerbaAlpina tries to avoid PowerPoint as it does not totally comply with the „FAIR“-criteria: At least a powerpoint presentation is not interoperable (FAIR) at all and usually hardly findable, accessible and reusable (FAIR). On the other hand, all these demands are met with a web-based contribution like the one you can see right here. This preamble is not meant as a criticism of using Powerpoint but rather as an apology for the use of this different kind of presentation.

You can scan the QR-Code below with your smartphone and follow the talk on your mobile device.

! Scan with Smartphon !

! Scan with Smartphon !

Introduction

Some of you might already know our project VerbaAlpina. Nevertheless, I will start my talk by sketching the overall frameset of VerbaAlpina.

Scientific Approach

VerbaAlpina is a linguistic project with mainly lexical orientation. The focus is on a simple question: We would like to know which terms are used for specific concepts in the Alpine region. The documentation is limited to concepts that are typical for the Alpine region, such as mountain pasture and dairy farming or the specific alpine flora and fauna. From the point of view of traditional geolinguistics, a fundamental innovation is certainly the definition of the research area. The scope of many of the existing speech atlases for example complies with political-administrative concepts such as national territories or the selection criterion is restricted to the distribution of national languages. In contrast, VerbaAlpina has chosen the homogeneity of the Alpine region in terms of landscape, culture, and economy as the decisive aspect for the definition of the research area.

As already mentioned, the focus of VerbaAlpina’s interest is the lexical material. VerbaAlpina’s database is primarily based on material published in traditional language atlases. To a certain extent dictionaries were also used, but only those whose entries contain information on the geographical distribution of the documented terms. Examples include the Swiss-German Idiotikon or the Dizionario di Montagne di Trento by Corrado Grassi (DizMT).1. Among the language atlases prominent examples are the Sprach- und Sachatlas Italiens und der Südschweiz (AIS) and the Vorarlberger Sprachatlas (VALTS).

VerbaAlpina sees itself as an entirely „digital“ online project that completely refrains from publications in conventional book or atlas form. The term „digital“ also refers to work with *structured* data, that means data enriched with metadata. All these data are managed in a relational database (MySQL).

VerbaAlpina’s data model is dominated by the correlation between the world of language and the extralinguistic reality, that is the world of concepts. The following scheme illustrates this correlation and makes it clear that in principle a certain word can designate more than just one concept and vice versa several words can exist for one and the same concept. In the context of VerbaAlpina, concepts are always written in capitals to clearly distinguish between words and concepts:

Correlation between designations and concepts

This basic model, which initially appears very simple, quickly acquires a high degree of complexity by adding the dimensions of space and time. This is because certain terms for certain concepts are only used in certain regions. The location and size of these regions can change over time or even disappear altogether.

So the question is:

  • Which words are or have been used
  • at which places
  • at what time to designate
  • which concepts?

Since the dimension of space is one of the central factors, VerbaAlpina only collects language material with georeferencing, as is the case in language atlases or in some dictionaries.

VerbaAlpina’s spatial dimension is defined by the perimeter of the so-called Alpine Convention. The Alpine Convention is a treaty under international law signed by the countries sharing the Alps. The perimeter is a boundary drawn by this organisation which defines the extent of the Alps administratively. For purely pragmatic reasons VerbaAlpina follows this border since a clear delimitation of the study area is organisationally indispensable and otherwise hardly possible.2

Within the study area all collected and georeferenced language material is related to the grid of political communities. In the case of large-scale distribution data such as „Ticino“ or „Vorarlberg“, the corresponding language data is attributed to all municipalities in these regions. Starting from the fine granulation of the political communes, the language material can be grouped in later analyses according to superordinate political units such as cantons, departments, government districts or regions and visualised on a map.

From VerbaAlpina’s point of view, the dimension of time is a little problematic, since the data grid is still very patchy in terms of chronological distribution and unbalanced in relation to the entire Alpine region. Some of the sources evaluated by VerbaAlpina indicate the time of the collection of a single document very precisely, sometimes even to the day3, while for other sources the year of publication only provides a terminus ante quem for the language data recorded therein.

VerbaAlpina’s data material acquires historical depth through the interlocking of the words drawn from the sources and the identification of similarities in the lexical basis. French salamandre, Italian salamandra and German salamander have the same lexical basis. It is obvious to assume a historical connection here. However, it is not easy to decide whether, for example, the German word is derived from one of the two Romance words (loanword scenario), or whether all three variants can be traced back to a common forerunner independently of each other. In such cases, VerbaAlpina identifies a lexical precursor from an earlier language spoken in the Alpine region and assigns it to the modern words in order to be able to grasp *that* there is a connection between the three words mentioned. VerbaAlpina refers to such precursors as „base types“. In the case of the example this would be the Latin salamandra.

The reason for this simplification is twofold: on the one hand, it is often not possible to decide which of the possible scenarios mentioned is present in the individual case and on the other hand, corresponding searches may be very time-consuming, so that they cannot be carried out within the framework of the project due to time constraints. The VA base types have the great advantage that they can be used to represent obviously existing connections *without* forcing the specification of the connections in detail.

The central reference value of VerbaAlpina are the so-called „morpholexical types“, hereinafter referred to as „morph types“. These are lexical units that are distinct, that means unmistakable, with regard to the linguistic family they belong to, spelling, genus and the question of whether they have an affixation or not. In this respect, the morph types correspond roughly to the lemmas of traditional dictionaries. These are predominantly nomina, verbs only play a subordinate role in VerbaAlpina so far.

VerbaAlpina initially bases its typification on so-called reference dictionaries. If there is a suitable entry in these dictionaries, it is assigned to the selected tokens. If the type exists in several reference dictionaries, multiple assignments are made. If a morph type does not exist in any reference dictionary, VerbaAlpina creates its own new morph type which is then assigned.

For the data collected from language atlases and dictionaries the morph type they represent must be decided on a case-by-case basis. An automatic assignment seems impossible. VerbaAlpina has developed a special tool facilitating manual typification, in which the transcribed and then tokenised utterances can be assigned to morph types (screenshot; link [registered users only]).

VerbaAlpina deliberately refrains from assigning morph types to individual languages or even dialects. The reason is that linguistic landscapes and thus also the Alpine region basically represent continua within which clear demarcations are practically impossible. Strictly speaking, each locality can have its own dialect. When defining the morph types, therefore, only the assignment to one of the three language families existing in the Alpine region is made. The assignment to a language family is inherited from the sources from which the documents belonging to the respective morph type originate.

The phonetic dimension is largely ignored by VerbaAlpina but can be mapped in the VerbaAlpina data model and is already present selectively in the database.

Many project specific aspects, be it related to linguistics or computer sciences, are reflected and thus documented in the methodology section of the project website.

Technical Aspects

VerbaAlpina tools

VerbaAlpina uses standard software wherever possible which must also be open source. Essentially, this involves the MySQL database management system (DBMS) for managing the central database and the WordPress PHP framework for the project website. For the specific requirements of the project, however, tools based on the aforementioned basic technologies have been developed. All of them are available on Github for free re-use under the CC-BY-SA license (VerbaAlpina-Github-Repository). And there is already one case in which some of our tools is reused: The VerbaPicardia (APPI).

Betacode and Transcription Tool

Betacode

For the transcription of „exotic“ writing systems, that primarily are found in language atlases, VerbaAlpina uses a concept that was developed and successfully used for the Thesaurus Linguae Graecae (TLG) in the 1970s (TLG-Betacode). In essence, the aim is to replace arbitrary characters and diacritics with defined and documented sequences of ASCII characters. The rules follow as simple and mnemotechnically favorable patterns as possible. For example, an acute on a base character is transcribed by a slash behind the base character.

The utterance you see here4:

taken from the AIS, is transcribed according to the transcription rules as follows:

la lac/a/

The sound value denoted by a sign is not important at all. This also means that identical signs such as the acute are always transcribed in the same way, that means with a slash after them, completely independent of the transcribed original and the possibly specific phonetic meaning. Only a source specific conversion procedure, in which all transcriptions are transferred into the IPA system, takes the sound values of the original source into account.

This method has several advantages:

  • It is possible to transcribe characters that are not yet Unicode-encoded.
  • The transcription can be done comfortably with standard keyboards and without complicated key combinations.
  • The transcriptors do not require knowledge of the meaning of the characters.
  • The transcriptions are – unlike multi-byte characters from UTF-8 – technically robust against unwanted changes.
  • Transcription takes place without loss of information.5

Transcription Tool

Especially, the automatic structured recording of lexical material from language atlases represents a considerable technical problem. It is not about the transformation of the partly exotic writing systems, which are sometimes used there. OCR programs such as Abbyy Finereader can be trained in such a way that they also correctly capture such writing systems and even produce the VerbaAlpina-specific beta code.6

In case of the linguistic atlases of the Romance tradition the real difficulty lies often in assigning the correct place, represented by a number, to the statements entered directly on the map. Machines are always overwhelmed by this task – and sometimes even humans are – when the entries on the map are too close together, as is the case, for example, in the AIS in southern Switzerland and neighbouring Italy.7

AIS-map 1218: Problem of assigning strings to numbers

From the point of view of automatic data acquisition the language atlases with point symbol maps, which are widely used in the field of German studies, appear to be even more complicated. In contrast to the Romance atlases data is usually displayed here in typified form. Concrete individual utterances of the informants are only presented occasionally.

Punktsymbolkarte germanistischer Tradition (VALTS IV 73: Die SENNHÜTTE)

The structured collection of data from these language atlases can therefore only be carried out manually. The problem is that consistent, error-free data collection requires a high degree of concentration and discipline. VerbaAlpina has developed a special transcription tool to make this work easier, to reduce the risk of errors and to ensure that the procedure is as systematic as possible.

Transcription tool

The tool synoptically combines a scan of the map to be transcribed and the form in which the transcriptions are entered. Maps and points on the map that have already been transcribed are marked accordingly. The system also prevents the duplicate capture of individual entries on the map. The transcriptor is given the numbers or signatures of the points on the map one after the other by the system. The transcription then takes place in the appropriate field of the form. The other parameters such as map number, location point number and concept assignment are specified by the system and are stored together with the transcription in the database. The registered data in the database then look like this:8

The input mask presents the general transcription rules for data entry in beta code in a windowframe at the top right, so the transcriptor can consult them with as little effort as possible. The automatic conversion corresponding to the original script on the map is displayed to the right of the input field as the transcriptor is writing. Thus, the transcriptor can immediatly detect eventual typos. In addition, the system prevents entering invalid character combinations.

Crowdsourcing tool

The database compiled by VerbaAlpina from language atlases and dictionaries shows inconsistencies in several respects. These inconsistencies result mainly from the fact that the language atlases each cover only parts of the Alpine region and do not all comprise the same concepts. As a result, for a certain region there are terms for concepts that were not even queried elsewhere – which does not mean that they do not exist there. For example the concept BEE is only attested in the areas documented by the following atlases: AIS, ALF, ALJA, ASLEF, TSA as is visualized on the following map9

Missing attestations for the concept BEE

It is not possible to carry out any surveys to fill the gaps. VerbaAlpina is therefore using the idea of crowdsourcing to round off the database. The idea is that users on the Internet contribute previously undocumented terms for selected concepts. VerbaAlpina has developed a special crowdsourcing tool (CS tool) for this purpose (Link). The functionality is deliberately kept simple so as not to deter potential crowders.

The VerbaAlpina Crowdsourcing (CS) Tool

Each „crowder“ has to select a location on a map and enters designations for selected concepts that are, in his opinion, common at this location. VerbaAlpina typifies the entire material as well as the data from atlases and lexica. A validation of the crowd material is theoretically possible through the principle of third-party confirmation but is currently not carried out by VerbaAlpina, mainly because the amount of data is still too small.

VerbaAlpina is monitoring the crowd activity (Link). Experience has shown that the vitality of the croudsourcing tool, that is: the number of entries, depends crucially on corresponding advertising activities. Immediately after media reports about VerbaAlpina and its crowdsourcing tool or corresponding propaganda in social media, the number of entries rises sharply but always falls again soon.

Mapping tool

The interactive online map appears as the, so to say, „showcase“ of the project. It is designed as the central data access point for the public, enabling the representation of language data in the dimension of space and thus revealing connections that often remain hidden when data is viewed in table or list form.

The digital map offers both the possibility of accessing the database from the perspective of words, that means of mapping the various concepts that can be designated by a particular word, and the option of asking the opposite question: Which concepts are designated where with which words. In traditional publishing, these two perspectives could only be served by two different genera: The (onomasiological) language atlas and the (semasiological) dictionary. The digital online map even offers the possibility of synoptically mapping both perspectives.

The map essentially offers two different forms of visualization. he standard method is qualitative mapping where the individual data which are bundled according to political communities are first displayed on the map by symbols. The following example shows the mapping of the distribution of the Romanic morph type malga, grouped according to its regionally different meanings:

A click on the map symbols opens an info window in which the underlying language data is presented. In addition to the source, the concept designated with the word, the base type and the individual attestation of the respective source in IPA are also displayed. The framed letters behind morph and base types refer to the corresponding entries in the reference dictionaries and are partly interactive, depending on accessibility on the net. A click on the symbol then leads directly to the corresponding entry in the reference dictionary. The info window also includes norm data and links to them. A click on the globe symbol next to or below the municipality name leads to the corresponding Geonames page, the concept names are linked to the Wikidata entries.

In addition to qualitative mapping, VerbaAlpina also offers a quantifying presentation. A click on the Q in the circle next to the menu item „Areas and regions“ acccumulates the currently mapped elements according to regions and colours them differently according to the number of elements mapped there. As default the large language areas form the reference pattern. By selecting the corresponding menu item „Areas and regions“, the data can also be accumulated and mapped according to smaller administrative units down to the level of municipalities.

The following map shows the distribution of morph types connected to the (Latin) base type butyuru(m) (Link):

Distribution of morph types connected to the base type butyru(m) (qualitative mapping)

The same data accumulated on the quantifying map (Link):

quantifying representation of the distribution of morph types connected to the base type butyru(m)

In addition to the realistic representation of the geographical boundaries, the quantifying representation can also be visualized on a hexagon map. In this kind of map, the geographical units are represented by hexagons of identical size. Thus, visual distortion effects are avoided which result from the area sizes which differ strongly from each other in reality. Of course, this kind of mapping has the disadvantage that the geographical arrangement of the areas and especially the number of adjacent areas no longer corresponds to reality in most cases. The added value certainly results from the possibility of switching between the different mapping variants and thus gaining an almost objective impression.

Hexagon map

The sharing symbol at the top right-hand corner of the map allows you to call up a persistent link that refers stably to the current map view and can, for example, be sent by e-mail or used in texts.

The realization of the online map is based on the latest graphics technology (WebGL) and is extremely powerful. This performance becomes visible above all during zoom processes with a large number of map symbols and borders, which demand a high computing power from the computer. The use of WebGL allows the necessary calculations on the processor of the graphics card (GPU) which is responsable for the decisive performance gain.

Cross-linkage and sustainability

Access to VA-data

Access to VerbaAlpina data is possible in various ways:

  • Via the project portal, which is freely accessible on the Internet and above all via the interactive online map and the – not yet mentioned – Lexicon alpinum,
  • via the API, which is also freely accessible,
  • or by using the PMA interface of the MySQL database.

The API allows the download of finely granulated material in a number of different formats and aggregations. Access via the PMA interface is reserved for VerbaAlpina’s official cooperation partners. The PMA interface allows data analysis using the SQL language. SQL-statements can also be executed using a form in the mapping tool. This function will be accessible to the public very soon. At present its use is restricted to registered users.

VerbaAlpina’s core data is very finely granulated and the individual elements are uniquely identified with persistent identifiers and can therefore be addressed precisely. Ultimately, these alphanumeric identifiers fulfill the function of VerbaAlpina-specific norm data. In concrete terms, all morph types, concepts and political communities are given a unique number which can be used to access the specific data in different ways or be referenced externally. Identifiers of the morph types have the prefix L, concepts C and communities A. The ID L1435, for example, stands for the morph type „babeurre (m.) (roa.)“. The first of the following addresses calls up a mapping of the distribution of this morph type, the second leads to the download of the data stored on this morph type in XML format and the last, finally, leads to the commentary in the Lexicon Alpinum – if available:

With a few exceptions, all URLs that refer to VerbaAlpina content contain a parameter that refers to a specific version of VerbaAlpina, marked in red in the examples above. The first two digits represent the year, the last one the version number of the year (191: first version in 2019). While the database of the working version, which is recognizable by the character string xxx, is subject to permanent changes, the contents of the other versions are stable. This ensures that references to these URLs always call up the same content and citation security is guaranteed. VerbaAlpina data is versioned twice a year, at mid-year and at year-end. You can choose between the available versions on the homepage.

The data of VerbaAlpina will soon also be transferred to the RDF schema of the Semantic Web. However, the establishment of a SPARQL endpoint is not planned for the time being; the corresponding implementation involves some effort and seems dispensable since there are a number of other ways of accessing the VerbaAlpina data. After all, VerbaAlpina meets the criteria of the „Linguistic linked open data“ movement (http://linguistic-lod.org/).10. Towards open data for linguistics: Lexical Linked Data (PDF). Heidelberg, in: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (Hrsgg.), New Trends of Research in Ontologies and Lexical Resources. Springer.)), and the data of VerbaAlpina will soon be included in this.

In the course of transferring the data of VerbaAlpina to the research data repository of the LMU-Library every item is enriched with DataCite metadata and is given a persistent DOI. The corresponding procedure is currently in development. It will soon be functional.

Linkage with external resources

VerbaAlpina links the three core categories of its database with external databases via the integration of suitable norm data.

In the case of morph types, corresponding links are established to the reference dictionaries. An interesting side effect is that the different suitability of the corresponding resources becomes clear. In terms of maximum interoperability, only some of the reference dictionaries provide suitable possibilities to technically address data in a desireable way. Positive examples include the portal of the Centre National de Ressources Textuelles et Lexicales ([Bibl:CNRTL]) or the Italian Treccani which offer transparent URLs for each lexical entry (e.g:  https://www.cnrtl.fr/definition/beurre, http://www.treccani.it/vocabolario/burro/). In some other cases references are only possible with great inaccuracy or not at all. It is not uncommon to encounter the phenomenon that the addressability of the contents still refers to the conventional page logic of book printing and to PDF documents or image files. This is, for example, the case with the French etymological dictionary (FEW).

For the concepts VerbaAlpina refers so far exclusively to the so-called Wikidata data objects. Each concept is assigned the respective Wikidata Q-ID in the database of VerbaAlpina. The corresponding link leads to the Wikidata data object page. There you will find links to the articles in the different Wikipedia of this concept. The link to the norm data of geonames has already been mentioned.

As we have already seen, links to all norm data are presented to the user in the info windows on the online map.

Some organizational stuff

VerbaAlpina started in 2014 and is funded by the German Research Foundation (DFG) with a perspective until 2025. The individual project terms comprise 3 years each. At the moment we are heading towards the last year of the second term and are about to prepare the application for the funding of the third term.

VerbaAlpina is directed by Thomas Krefeld and myself. The staff is divided into two parts: There are three linguists and two computer scientists who are each supported by assistants. Among the linguists there are two Romance scholars and one Germanist. One of the computer scientists is mainly responsible for all aspects of the core data (data modelling, interfaces, API), the other mainly for all questions of visualisation, mainly the interactive online map.

VerbaAlpina is thus an interdisciplinary DH project with parts of the classical humanities and computer science. The LMU Center for Digital Humanities (IT-Gruppe Geisteswissenschaften; ITG) is responsible for the informatics part. This institution was created in 2000, is largely financed by the six humanities faculties of the LMU and has an unlimited perspective of existence. The ITG is responsible for planning and operating the IT infrastructure in the Humanities area. One of the ITG’s steadily growing areas of responsibility is support in the planning and implementation of DH projects. From the ITG’s point of view, VerbaAlpina is only one of numerous projects whose project data is managed in the context of a heterogeneous, but uniformly – namely relationally – structured overall data pool. Over the years, this data pool has grown to considerable size and diversity, offering at least theoretically the perspective of data analysis across project boundaries. Against this background, the ITG is currently developing a cooperation with the LMU-Master’s programme in Data Science, which was launched at the beginning of 2017.

The ITG also plays an important role with regard to the sustainability of the results produced by VerbaAlpina. After the end of project funding, the ITG will continue to operate the project portal as far as possible and perform the minimum maintenance work required for operation.


* Given at the colloqium „NEW WAYS OF ANALYZING DIALECTAL VARIATION“, held at Sorbonne University, Paris, 21-23 November 2019. The English version of the talk was initially produced with the help of DeepL (https://www.deepl.com/translator) and subsequently corrected or adapted where necessary.


  1. Grassi documents the local variation of a single small town in the Italian province of Trento 

  2. However, the chosen definition of the study area causes certain asymmetries, such as the fact that the Swiss Emmental, famous for its cheese, lies outside the Alpine Convention and is therefore not covered by VerbaAlpina, although this region could very well be considered part of the Alpine region from both an economic and an environmental point of view. 

  3. Such is the case in the <span class="bibl" data-bibl="ais">AIS</span> 

  4. AIS 1218_1, 129 

  5. This would be the case, for example, if the Böhmer Ascoli system, used for example in the <span class="bibl" data-bibl="ais">AIS</span>, were transcribed directly into <span class="vaabr" data-vaabr="IPA">IPA</span> instead of the present one, since <span class="vaabr" data-vaabr="IPA">IPA</span> does not allow such a fine differentiation with regard to the individual sounds as Böhmer Ascoli does 

  6. The procedure is sketched in <a href="http://www.kit.gwi.uni-muenchen.de/pdf/band/001/korpus-im-text_band_001_v001.pdf"><span class="vaabr" data-vaabr="SDOT">S.</span> Lücke / C. Riepl / C. Trautmann, Softwaretools und Methoden für die korpuslinguistische Praxis (Korpus im Text 1, München 2017</a>, <span class="vaabr" data-vaabr="SDOT">S.</span> 126f. 

  7. A master thesis has just been completed at the Institute of Computer Science of the <span class="vaabr" data-vaabr="LMU">LMU</span>, which was intended to design an algorithmic solution to this problem. Among other things, deep learning methods were used. As far as VerbaAlpina can judge, however, no success is in sight in this way either – not to talk about the technical availability of an appropriate tool. 

  8. The corresponding sql-statment reads as follows:</p> <p>SELECT</p> <p>concat(a.Aeusserung, ‚ (‚,<br /> group_concat(f.<span class="vaabr" data-vaabr="IPA">IPA</span> order BY f.Id_Token SEPARATOR ‚ ‚),‘)‘<br /> ) AS aeusserung,<br /> b.erhebung,<br /> b.karte,<br /> b.nummer,<br /> b.stimulus,<br /> c.Nummer,<br /> c.Alter_Informant,<br /> c.Geschlecht,<br /> e.Beschreibung_F,<br /> ‚[name of transcriptor]‘ as erfasst_von,<br /> a.erfasst_am</p> <p>FROM aeusserungen a<br /> JOIN stimuli b<br /> USING(id_stimulus)<br /> JOIN informanten c<br /> USING(id_informant)<br /> JOIN vtbl_stimulus_konzept d<br /> USING(id_stimulus)<br /> JOIN konzepte e<br /> USING(id_konzept)<br /> JOIN tokens f<br /> ON a.Id_Aeusserung=f.Id_Aeusserung<br /> WHERE<br /> a.Aeusserung LIKE ‚%lac/a-/%‘<br /> and b.Erhebung LIKE ‚AIS‘<br /> AND b.Karte LIKE ‚1218‘<br /> AND b.Nummer LIKE ‚1‘<br /> AND c.Nummer LIKE ‚128‘<br /> AND e.Beschreibung_F LIKE ‚PETIT-LAIT, APRÈS LA PREMIÈ<span class="vaabr" data-vaabr="RE">RE</span> SÉPARATION DES COMPOSANTS SOLIDES, EST DONNÉ À MANGER‘<br /> GROUP BY a.Id_Aeusserung; 

  9. <strong>AIS</strong>: Map 1152: un’ape; le api“<br /> <strong>ALF</strong>: Map 1: abeille“<br /> <strong>ALJA</strong>: Map 792: (l‘) abeille *(le) mâle des abeilles“<br /> <strong>ASLEF</strong>: Map 1148: ape“<br /> <strong>TSA</strong>: Map III_28: Biene“</p> <p>(cf. map <a href="https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=xxx&tk=2428" target="_BLANK">https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=xxx&tk=2428</a>)<br />  

  10. <span class="vaabr" data-vaabr="SDOT">S.</span> Chiarcos, Christian; McCrae, John; Cimiano, Philipp; Fellbaum, Christiane (2013 

Geolinguistik, Kleinsprachen und die FAIR-Prinzipien (am Beispiel von VerbaAlpina) (Zitieren)

Thomas Krefeld | Stephan Lücke
(1785 Wörter)

Dieser Beitrag wurde für die Sektion Rekonstruktion und Erneuerung romanischer Regional- oder Minderheitensprachen im Zeitalter der Digital Humanities des XXXVI. Deutschen Romanistentags verfasst. Der genannte Sektionstitel eröffnet einen außerordentlich weiten Horizont; denn die Ausdrücke, die er zusammenbringt, weisen

  • in die Sprachgeschichte (‘Rekonstruktion’);
  • in die Sprachplanung (‘Erneuerung’);
  • in den Sprachvergleich (‘romanisch’);
  • in die Geolinguistik (‘Regional-’);
  • in die Sprachpolitik (‘Minderheiten-’);
  • in die Sprachsoziologie (‘-sprache)’);
  • in die Neuen Medien (‘Digital Humanities’).

Unser Beitrag ist zwar in der Geolinguistik und in den Neuen Medien zentriert, aber Perspektiven für die anderen Felder lassen sich leicht daraus ableiten, wie angedeutet werden wird.

Romanische Geolinguistik

Ziel des Projekts VerbaAlpina (VA) ist die kleinräumige, d.h. lokale Erfassung des spezifisch alpinen Wortschatzes in den drei im Untersuchungsgebiet gesprochenen Sprachfamilien (Germanisch, Romanisch, Slawisch). Diese systematische Erweiterung der traditionell einzelsprachlichen Dialektologie ist sinnvoll, da zahlreiche Bezeichnungstypen über die Grenzen nur einer Sprachfamilie hinaus verbreitet sind; diese Ausdrücke wurden daher nicht zu Unrecht als Alpenwörter bezeichnet. Die Konzeption, der VA verpflichtet ist, lässt sich als interlinguale Geolinguistik charakterisieren, da Varianten aus mehreren Einzelsprachen zusammengebracht werden; Berücksichtigung finden jedoch ausschließlich georeferenzierbare Belege, wobei  die politische Gemeinde als Bezugseinheit der  Georeferenzierung fungiert. Das potentielle Netz umfasst alle 6990 Gemeinden der so genannten Alpenkonvention.

Dieser Voraussetzung genügen im wesentlichen zwei Typen von Quellen: grundsätzlich die Sprachatlanten und – wenngleich nicht im Grundsatz, sondern im Idealfall – die dialektale Lexikographie. Sobald diese gemeinsame Voraussetzung der Georeferenzierbarkeit gegeben ist, lassen sich beide Quellentypen auch komplementär darstellen, wie es auf den VA-Karten geschieht. So illustriert dieser Kartenausschnitt den Einbezug des DizMT, der einen einzigen Lokaldialekt thesauriert.

Überblicksartige Darstellungen, wie auf der gerade genannten Beispielkarte, sind jedoch nur möglich, wenn die nicht selten zahlreichen lokalen Einheiten zu Gruppen zusammengefasst werden, so wie formˈavo, fromˈazo, fryˈmai, furˈmaj, furmˈaʧ usw., die alle das Konzept KÄSE bezeichnen. Durch die Gruppierung werden die Belege zu Varianten abstrakterer Typen. Systematisch unterschieden werden in VA sogenannte ‘morpho-lexikalische Typen’ und ‘Basistypen’ (vgl. Typisierung; die morpholexikalischen Typen definieren sich über die Wortart, die Konstituenten des Worts (Basis [+ Wortbildungsmorphem]), im Fall von Nomina zudem über das Genus sowie über die Sprachfamilie; nun ist es praktisch, die Typen (d.h. die Klassen von Varianten) auch durch sprachliche Einheiten identifizieren zu können; dazu werden in VA die am besten bekannten/am weitesten verbreiteten Varianten gewählt, also die standardsprachlichen Äquivalente. So wird der morpholexikalische Typ, zu dem alle genannten Beispiele sowie 368 weitere (Stand: 17.9.2019) gehören, durch standardfra. fromage/standardita. formaggio identifiziert.

Noch abstrakter sind die Basistypen; sie gestatten es morpho-lexikalische Typen zu gruppieren, wenn sie eine gemeinsame historische Basis haben; das gilt auch für morpho-lexikalische Typen unterschiedlicher Sprachfamilien, also im Fall von Entlehnungen.   So werden die morpho-lexikalischen Typen fra. fromage/ita. formaggio (m.), formaggia (f.), fra. forme/ita. forma zum Basistyp lat. forma(m) gebündelt oder schweizerdeu. staafel, fra. étable (f.), ita. stabbio (m.) zum Basistyp lat. stabulum.

FAIR

  1. auf der Basis des Ladinia-Arbeitsberichts
  1. Stephan#

Lokale Belege, Typen virtuelle Repräsentation#

Wie die FAIR-Kriterien nun im Einzelnen ausbuchstabiert werden sollten, ist jedoch nicht eindeutig zu beantworten, denn es ergeben sich unterschiedliche Möglichkeiten. Ein geolinguistisches Modell für die virtuelle Abbildung dialektaler Kontinua wird von VerbaAlpina entwickelt. Grundlegend für die Identifikation der Daten ist darin die Georeferenzierung, die auf der Ebene der politischen Gemeinde erfolgt. Zusätzlich zu den Geodaten wird jeder Sprachbeleg einer der drei alpinen Sprachfamilien zugeordnet.

Die Zugehörigkeit kann übrigens nicht automatisch von der Gemeinde auf die Daten ‚vererbt‘ werden, denn es gibt durchaus zweisprachige Orte; so wurden für Selva di Progno oberhalb von Verona von Nutzern des CS–Tools germanische und romanische Belege geliefert, wie der Ausschnitt zeigt:

Zufälliger Ausschnitt aus den Crowd-Daten aus Selva di Progno

Zufälliger Ausschnitt aus den Crowd-Daten aus Selva di Progno

Die Zweisprachigkeit der gelieferten Materialien ist im Übrigen keineswegs überraschend, denn zur Gemeinde gehört die zimbrische Sprachinsel Ljetzan (ita. Giazza). Eine genauere Georeferenzierung auf diese frazione wäre übrigens auch keine Lösung, denn das Zimbrische ist in rapidem Rückgang begriffen, so dass auch im Ortsteil Ljetzan mittlerweile ganz überwiegend  eine romanische Varietät gesprochen wird.

Mit den Geokoordinaten und der Zuweisung einer Sprachfamilie ist eine lokal erhobene sprachliche Einheit hinreichend charakterisiert, um sie eindeutig im Dialektkontinuum zu verankern. Damit die lokalen sprachlichen Einheiten außerdem auch lexikologisch  identifiziert werden, weist VA ihnen (wie eingangs gesagt) einen möglichst weitverbreiteten, im Idealfall standardsprachlichen morpho-lexikalischen Typ zu, wie z.B. im Fall der im Ausschnitt gezeigten Form knest ‘Gehilfe des Hirten’ das deu. Knecht.

Geolinguistische Identifikatoren

Allerdings lassen sich aus der Tatsache, dass diese lokale Form  knest (sowie mehr oder weniger viele andere desselben Ortes auch) sich als Variante eines Typs erweist, für den es auch eine standarddeu. Variante gibt (Knecht) auch nicht im Ansatz Argumente gewinnen, ob man das lokale Zimbrische womöglich als eigenständige Sprache und nicht als Dialekt des Bairischen einstufen sollte.  Diese Frage stellt sich im germanisch- und slawischsprachigen Gebiet der Alpen ohnehin selten, allenfalls noch für das Walserische in manchen italienischen Walsergemeinden sowie für das  Rezijansko in der Val Resia.

Im Hinblick auf die geolinguistische Dokumentation, die in sprachwissenschaftlicher Perspektive unbedingt im Vordergrund stehen muss, ist der Unterschied sekundär und letztlich vollkommen unerheblich, denn jeder Erhebungsort hat potentiell ein mehr oder weniger spezifisches Idiom und alle diese lokalen Idiome sind im Hinblick auf das romanische Kontinuum gleichwertig – vollkommen unabhängig davon, ob ihr gesellschaftlicher Status als ‘Dialekt’ oder ‘Minderheitensprache’ eingestuft wird, oder ob sie in klassifikatorischer Absicht als ‘Kleinsprache’ oder ‘Subdialekt’ eines regional weiterverbreiteten Dialektverbunds eingeschätzt werden. Die romanische Situation muss man im Hinblick auf diese sprachsoziologischen und arealtypologischen Fragen als außerordentlich unübersichtlich bezeichnen. Ganz unterschiedlich motivierte Sprachnamen und klassifikatorische Kategorien werden oft vermischt.

Das Problem muss hier nicht im Detail beschrieben werden; es reicht ein Blick auf das Rätoromanische in der Schweiz.   Mit diesem Ausdruck wird in der Bundesverfassung eine der vier ‘Landessprachen’ bezeichnet. Im Art. 4  heißt es ganz lapidar:

„Die Landessprachen sind Deutsch, Französisch, Italienisch und Rätoromanisch.“1 (Bundesverfassung)

Es wird in Art. 70 weiterhin spezifiziert, dass diese Sprache auch ‘Amtssprache’ ist:

„Die Amtssprachen des Bundes sind Deutsch, Französisch und Italienisch. Im Verkehr mit Personen rätoromanischer Sprache ist auch das Rätoromanische Amtssprache des Bundes.“ (Art. 70 Sprachen)

Auch in der Verfassung des Kantons Graubünden ist vom ‘Rätoromanischen’ die Rede: 

„Art. 3 Sprachen
1 Deutsch, Rätoromanisch und Italienisch sind die gleichwertigen Landes- und Amtssprachen des Kantons.
[…]
3 Die Gemeinden bestimmen ihre Amts- und Schulsprachen im Rahmen ihrer Zuständigkeiten und im Zusammenwirken mit dem Kanton. Sie achten dabei auf die herkömmliche sprachliche Zusammensetzung und nehmen Rücksicht auf die angestammten sprachlichen Minderheiten.“ (VerfassungGR)

Dem verfassungsrechtlichen Gebrauch entspricht die Sprachkodierung in ISO 693-3 , denn dort ist ebenfalls für  ‚Rätoromanisch‘ (bzw. eng. Romansh) ein Identifikator vorgesehen, nämlich roh. Diese Kodierung lässt sich zwar als ein verlässliches Normdatum in geolinguistischen Metadatensätzen verwenden; es ist jedoch nicht genau genug, denn ‘das’ Rätoromanische in Graubünden existiert in Gestalt von mindestens 7 Varietäten, von denen 6 auch in der Schriftlichkeit ganz selbstverständlich und mit lang zurückreichender Tradition gebraucht werden.2 Daher sind weitere Sprachcodes erforderlich, die z.B. vom Wikidataprojekt oder vom Glottolog angeboten werden:3

Varietäten gemäß Lia Rumantscha Wikidata QID Glottolog Verfassungen CH, GR ISO-693.3
„Standardsprache“ Rumantsch Grischun „Rätoromanisch“ roh
„Schriftidiome“ Puter
Vallader Q690226 Lower Engadine
Surmiran Q690216 Surmiran-Albula
Sursilvan Q688348 Sursilvan
Sursilvan-Oberland
Sutsilvan Q688272 Sutsilvan
geprochener Dialekt Jauer Q690181

Man beachte, dass Wikidata das differenzierteste Angebot an IDs macht. Unabhängig davon, ob sie sich auf Dialekte oder (Klein)Sprachen beziehen, sind diese Codes mindestens dann für die geolinguistische Datenstrukturierung relevant, wenn sie in Referenzwörterbüchern explizit erscheinen, wie zum Beispiel in S, V oder P.

Glottolog identifiziert zwar die „Schriftidiome“, bezeichnet sie jedoch teils (Puter, Vallader) nur mit englischen Termini. Darüber werden die in der Tabelle (Spalte Glottolog) identifizierten Idiome weiterhin auf der spezifischsten Ebene einer zwölfstufigen Hierarchie positioniert, die teils auf rezent geographischen, teils auf genealogischen Kriterien beruht (in Klammern steht die Anzahl der erfassten Sprachen)4:

Taxonomie des Glottolog

1.▼Indo-European (588)
  • Albanian (4)
  • Anatolian (10)
  • Armenic (3)
  • Balto-Slavic (23)
  • Celtic (14)
  • Dacian
  • Germanic (106)
  • Graeco-Phrygian (11)
  • Indo-Iranian (324)
  • 2.▼Italic (86)
    • 3.▼Latino-Faliscan (83)
      • Faliscan
      • 4.▼Latinic (82)
        • Imperial Latin (81)
          • 5.►Latin
          • Romance (80)
            • Eastern Romance (5)
            • 6.▼Italo-Western Romance (70)
              • Italo-Dalmatian (5)
              • 7.▼Western Romance (65)
                • 8.▼Shifted Western Romance (63)
                  • 9.▼Northwestern Shifted Romance (31)
                    • Gallo-Italian (8)
                    • 10.▼Gallo-Rhaetian (23)
                      • Friulian
                      • Ladin
                      • Oil (20)
                      • 11.▼Romansh
                        • Lower Engadine
                        • Rumantsch Grischun
                        • Surmiran-Albula
                        • Sursilvan
                        • Sursilvan-Oberland
                        • Sutsilvan
                        • Upper Engadine

Jede taxonomische Ebene ist durch einen (hier nicht wiedergegebenen) Identifikator ansprechbar, so dass sich natürlich die Frage erhebt, ob diese auf den ersten Blick elaborierte Taxonomie, speziell die sechs romanischen Stufen für die digitale Strukturierung geolinguistischer Kontinua aus der Romania – im Sinne der FAIR-Kriterien F und I (Findable, Interoperable) – einen nützlichen Fortschritt bedeutet. Die Antwort ist ebenso klar wie kurz: nein.

Es fehlt den Kategorien jedenfalls am Ort, wo sie bereitgestellt werden, jegliche Transparenz, da keine Daten hinterlegt sind und keinerlei Kriterien mitgeliefert werden, die sich auf konkrete Daten anwenden ließen; dazu müsste gesagt werden, wo z.B. der Westen („Western Romance“) beginnt, wie eine alternative Trennung in ‚Gallo-Italian‘ und ‚Gallo-Rhaetian‘ abgeleitet wird usw. Von der fehlenden  Operationalisierung dieser klassifikatorischen Kategorien abgesehen muss ganz grundsätzlich bezweifelt werden, ob sich derartige top down formulierte trennscharfe Klassifikatoren überhaupt auf Kontinua anwenden lassen. Der einzig mögliche Weg für eine raumbezogene Klassifikation geht bottom up durch die metrische Bestimmung gemeinsamer bzw. nicht-gemeinsamer Merkmale, also im Sinne einer induktiven, datengetriebenen Dialektometrie, deren Präsentation stets gestattet zu den zugrunde liegenden Daten zurückzugehen und insofern auch reusability verspricht. Voraussetzung dafür ist jedoch, dass nicht nur die lokalen Idiome, sondern alle relevanten sprachlichen Merkmale mit eindeutigen Identifikatoren versehen werden; Ansätze dazu finden sich bereits im bereits erwähnten Wikidataprojekt in Gestalt von QIDs für grammatische Kategorien und LIDs für lexikalische Typen. Dieser Bestand sollte durch alle geolinguistischen Projekte im Sinne der FAIR-Prinzipien systematisch ausgebaut werden. Angesichts dieser eigentlich fundamentalen Herausforderung ist die skizzierte Taxonomie nicht nur unnütz sondern schädlich.


  1. Französisch: „<span style="font-size: 1rem;">Les langues nationales sont l’allemand, le français, l’italien et le romanche.</span><span style="font-size: 1rem;">“ | Italienisch: „</span><span style="font-size: 1rem;">Le lingue nazionali sono il tedesco, il francese, l’italiano e il romancio.</span><span style="font-size: 1rem;">“ | Rätoromanisch: „Las linguas naziunalas èn il tudestg, il franzos, il talian ed il rumantsch.“ 

  2. Weitaus schwieriger ist die Frage der Klassifikation im Hinblick auf das Dolomitenladinische, da die Extension dieses Klassifikators außerordentlich umstritten ist. 

  3. Außerdem ist der <span style="font-size: 1rem;"><a href="https://www.ethnologue.com/language/roh" target="_BLANK">Ethnologue</a> zu nennen.</span> 

  4. Die Ziffern wurden vom Verf. hinzugefügt. 

Interlinguale Geolinguistik und Digital Humanities: das Projekt VerbaAlpina (Zitieren)

Thomas Krefeld
(2223 Wörter)

Thomas Krefeld (LMU)

1. Wissenschaftskommunikation im Internet

Forschungsmittel sind begrenzt; der Zugang dazu muss also kompetitiv geregelt sein. Wenn Forschung in dieser Hinsicht zwar dem Wettbewerb unterliegt, so ist sie doch in ihrem Wesen vor allem kollaborativ: Denn Fortschritt gibt es nur auf der Grundlage des jeweils bereits verfügbaren Wissens. Im Hinblick auf die Kollaboration – die ja grundsätzlich in Kommunikation fundiert ist – haben sich nun in den letzten 15 Jahren die Rahmenbedingen vollkommen geändert:  Es ist innerhalb weniger Jahre eine Gesellschaft entstanden, die explizit als Wissensgesellschaft bezeichnet wird, da sie im Privaten und im Öffentlichen die permanente und ubiquitäre Verfügbarkeit der Neuen Medien und damit einen praktisch unbegrenzten Zugang zum Wissen jeglicher Art voraussetzt.

Diese vollkommene Mediatisierung betrifft aber nicht nur den Wissenskonsum, sondern gleichermaßen die Wissensgenerierung durch Forschung, nicht zuletzt deshalb, weil sie uns eine sehr breite, ortsunabhängige Kooperation ermöglicht. Ins Schlaraffenland sind die Forscher damit freilich nicht gelangt, denn die Option auf Kooperation konkretisiert sich keineswegs automatisch. Sie erfordert vielmehr die Beachtung einiger elementarer Regeln, die seit kurzem mit der Sigle FAIR benannt werden, die von einer wichtigen Initiative lanciert wurde (🔗). Damit werden vier grundlegende ethische Prinzipien für die Wissenschaftskommunikation unter den Bedingungen der Neuen Medien identifiziert. Ihnen zufolge müssen Forschungsdaten

  • F_indable (‘auffindbar’),
  • A_ccessible (‘zugänglich’),
  • I_nteroperable (‘kompatibel’),
  • R_eusable (‘nachnutzbar’)

sein (🔗). Die Anforderungen von drei  (F, A, R) der vier Prinzipien zielen darauf sowohl human readable als auch machine readable zu sein; sie gelten also sowohl für die Mensch-Maschine-Mensch-Kommunikation als auch für die Maschine-Maschine-Kommunikation. Das vierte Prinzip (I) gilt nur für letztere; es ist jedoch im skizzierten virtuell-medialen Rahmen zentral für den Fortschritt der Forschung und repräsentiert insofern die Unverzichtbarkeit der technologischen Komponente und die Transformation des LESERs zu einem interaktiven NUTZER, der auf einem Kontinuum zwischen hochspezialisierten Experten und völligen Laien abgebildet werden kann und der sich den Daten nicht nur lesenden Auges nähert, sondern womöglich mit der Absicht sie für eigene Forschungszwecke zu nutzen und dafür maschinelle ‘Erntehelfer’ (zum sog. harvesting) einzusetzen.

Die Operationalisierung der FAIR-Prinzipien erfordert ein komplexes Zusammenspiel von Forschern, das heißt de facto von befristeter und deshalb mehr oder weniger prekärer Projektarbeit einerseits und andererseits von Institutionen, die Dauerhaftigkeit in Aussicht stellen können; das sind in allererster Linie die großen Bibliotheken. Die Entwicklung von Prozeduren für diese ganz spezielle Art der Kooperation gehört zu den aktuellen Herausforderungen der Forschung, die mit dem Ausdruck Forschungsdatenmanagement (FDM) bezeichnet werden. Damit sind wichtige Eckpunkte der Wissenschaftskommunikation im Web markiert, die den Horizont dieses Beitrags abstecken.

2. FAIRness in einer web-basierten Forschungsumgebung

Das Projekt VerbaAlpina (VA) versucht die Forschungskommunikation im oben skizzierten Sinne konsequent nach den FAIR-Prinzipien zu gestalten.  Dabei ist ihre Anwendung in den folgenden fünf komplementär angelegten und eng miteinander verflochtenen Funktionsbereichen (🔗) zu unterscheiden:

  • Dokumentation;
  • Publikation;
  • Kooperation;
  • Datenerhebung durch crowdsourcing;
  • Forschungslabor.

2.1. FAIRness der Publikation

Das ganze Internet ist nichts Anderes als eine gewaltige Publikationsmaschine; es ist allerdings unbedingt notwendig zu differenzieren, denn es wird durchaus anders und teils auch Anderes als unter den medialen Bedingungen des Drucks publiziert wird. Von VerbaAlpina  werden

  • semantischer Inhalt (Dialektformen, analytischer wissenschaftlicher Text),
  • Metadaten,
  • Software und Code

veröffentlicht (🔗).

Produziert wenrden dabei ausnahmslos stabile Daten und Textdateien, da die gesamte Plattform (Benutzeroberfläche und Datenbanken) alle sechs Monate ‘eingefroren’, oder: versioniert wird; zusätzlich besteht jeweils eine aktuelle Arbeitsversion (Version xxx), die noch Änderungen unterliegt und daher nicht zitiert werden sollte (🔗). Die jeweils jüngste Version ersetzt jedoch nicht die vorige, sondern ergänzt sie, denn alle früheren Versionen bleiben erhalten, so dass sämtliche Zitate und Verlinkungen innerhalb des Projekts sowie von außen auf das Projekt stets zugänglich sind.

Es ist weiterhin sichergestellt, dass die Versionen gut auffindbar sind, denn ihnen wird von der UB der LMU ein DOI zugewiesen (http://dx.doi.org/10.5282/verba-alpina); gleichzeitig findet VA als Ganzes damit Eingang in die Biblibliothekskataloge (🔗).

Auf dieselbe Weise lassen sich auch alle thematischen Textbeiträge identifizieren, die auf der Projektseite unter den Reitern Lexicon alpinum, Methodologie und Beiträge  publiziert werden; sie erhalten ebenfalls einen DOI und sind daher direkt zitierfähig (vgl. z.B.: Krefeld, T. / Lücke, S.: s.v. “butyru(m)”, in: VA-de 18/2, Lexicon alpinum, http://dx.doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D2374%26db%3D182%23B128).

Eine vergleichbare Funktion leistet der URN, der bei der Deutschen Nationalbibliothek in Frankfurt registriert wird. Schließlich ist auch der gesamte Quellcode von VA mit allen programmierten Tools unter github auffindbar und zugänglich.

Technisch gesehen liegt dem Verfahren ein Export aller VA-Dateien in ein Repositorium der UB zu Grunde (open data lmu) in dem auch Metadaten im Format DataCite zugewiesen werden. Eine große Rolle bei der Ausgestaltung der Metadatenschemata spielen die Normdaten, die eine eindeutige und fein granulierte Identifikation der Forschungsdaten erlauben. VA unterscheidet drei Datenkategorien (oder: Entitäten), für die eigene Identifikatoren vergeben werden, die in Verbindung mit den Daten abrufbar sind:   ‘Konzept’, ‘morpholexikalischer Typ’ (s. Typisierung) und ‘Gemeinde’. So ergeben sich sehr spezifizierte Metadaten (vgl. das DataCite Beispiel für das Konzept SENNHÜTTE, das neben dem VA-Identifikator C1 auch die in VA ebenfalls vorhandenen onomasiologischen Identifikatoren des Wikidata-Projekts enthält:  Q136689, Q27849269, Q2649726).

Dieser Export gewährleistet die Zugänglichkeit und Nachnutzbarkeit der Daten nach dem Auslaufen der Projektförderung. Der Datenexport erfolgt über eine API-Schnittstelle (vgl. API Dokumentation), die im Internet öffentlich zugänglich ist und daher auch für die Vergabe anderer Metadatenschemata, z.B. gemäß CLARIN-D, benutzt werden kann. Einen groben Überblick des im Entstehen begriffenen Forschungsdatenmanagements (Stand vom 11.3.2019) gibt das folgende Schema:

Forschungsdatenmanagement zwischen Projekten, Institutionen und Öffentlichkeit

Im Hinblick auf die Auffindbarkeit und Zugänglichkeit sind noch zwei grundsätzliche Bemerkungen angebracht:

  1. Da bislang in der Wissenschaftsgemeinde weder ein Standard-Metadatenschema verbindlich festgelegt noch die Frage geklärt ist, welche Institutionen über deren Einhaltung und die dauerhafte Bewahrung von Daten und Metadaten wachen sollen, hat sich VA zum einen für ein flexibles Schnittstellenkonzept entschieden, das die Nutzung im Grunde beliebiger Metadatenschemata erlaubt. Außerdem beteiligt sich VA an zwei aktuell laufenden Forschungsprojekten, die sich mit dieser Problematik auseinandersetzen: der Initiative (GeRDI) des LRZ und dem von der Bayerischen Staatsregierung geförderten Projekts e-humanities – interdisziplinär. Im Projekt GeRDI sollen Daten ganz unterschiedlicher Disziplinen über Metadaten verknüpft werden, indem gemeinsame Attribute festgelegt werden (was z.B. im Fall von Geo- und Chronoreferenzierungen sehr einfach und häufig auch sinnvoll ist).
  2. Abgesehen von den Metadaten, die auf die spezifischen Projektdaten referenzieren, ist es im Sinn von Auffindbarkeit und technischer Interoperabilität unbedingt ratsam, Identifikatoren und Normdaten zu verwenden, die außerhalb des Projekts etabliert sind. VA verwendet daher seit kurzem die Identifikatoren der sogenannten  Wikidata-Datenobjekte. Sie liefern Referenzen für außersprachliche Realitäten und Konzepte und damit einen gemeinsamen Bezugsrahmen für viele unterschiedliche Sprachen; so gibt es derzeit (14.12.2018) Wikipedia-Artikel in 133 Sprachen über das Milchprodukt Butter. Die sehr unterschiedlichen Artikel werden verknüpft, indem sie alle auf den eindeutigen Identifikator des entsprechenden Wikidata-Datenobjekts referenzieren (Q34172). Eine Suchmaschine, die danach sucht, ist also in der Lage, alle zugehörigen 133 Bezeichnungen zu finden – und so demnächst auch die in VA dokumentierten, zahlreichen Dialektformen (1926 Belege). Ein ähnliches System für Bezeichnungstypen, d.h. für Wörter (L-ID), ist im Aufbau (und sollte unbedingt auch auf morpho-syntaktische Kategorien ausgeweitet werden).

2.2. FAIRness der Dokumentation

VA dokumentiert Dialektbelege der drei großen europäischen Sprachfamilien, die sich in ethnolinguistischer Hinsicht  als spezifisch alpin erweisen.

Das Material wurde in einen systematisch strukturierten Datenbestand überführt und nach sprachlichen (‘morpho-lexikalische Typen’, ‘Basistypen’) und außersprachlichen (‘Konzepte’) Kritierien annotiert; neben dem maschinenlesbaren Zugang über die oben erwähnte API-Schnittstelle gibt es einen menschenlesbaren Zugang, der in sehr anschaulicher Weise über eine interaktive Karte erfolgt; die dafür momentan noch genutzte Google Maps-Karte wird in Kürze durch eine bereits weitestgehend entwickelte Karte mit verbesserter Funktionalität auf der Grundlage von Open Street Maps ersetzt (🔗 ).

Die genannten Kategorien der Datenstrukturierung  fungieren an der Kartenoberfläche als Filter. Bereits auf dieser nutzerfreundlichen, insbesondere laientauglichen Oberfläche wurde eine ebenso einfache wie elementare Funktion der reusability implementiert, denn es ist möglich, alle Karten, die man sich anzeigen lässt, in exakt der angezeigten Form (mit der entsprechenden Zoomstufe, jeweils geöffneten Fenstern usw.) mit anderen zu teilen oder sie in Publikationen usw. einzubauen, denn durch Klicken auf einen ’share button‘ wird für die jeweils aktuell angezeigte Karte eine versendbare URL erzeugt; so führt der folgende Link zu einer Karte aller in VA vorhandenen dialektalen Bezeichnungen (derzeit 1748 Belege) von BUTTER.

Das vorhandene Sprachmaterial stammt aus zwei Quellen: Ein kleinerer Teil des Materials, das VA anbietet wurde durch  das Projekt selbst im Crowdsourcing-Verfahren (s.u. 2.4.) erhoben. Der größte Teil wurde jedoch aus gedruckten oder für den Druck vorgesehenen Arbeiten gewonnen, so finden sich auch Formen, die uns im Rahmen von Partnerschaftsabkommen aus noch nicht abgeschlossenen Projekten zur Verfügung gestellt wurden (vgl. zum Beispiel das Punktnetz des Sprachatlas von Oberösterreich). Berücksichtigt wird auch Wörterbuchmaterial, unter der Bedingung, dass die sprachlichen Belege georeferenzierbar sind; das ist bei guten Dialektwörterbüchern wie zum Beispiel dem DRG oder dem VSI der Fall. De facto ist jede Quelle auch chronoreferenzierbar, aber diese Funktion wurde noch nicht implementiert.

Durch die Retrodigitalisierung und den Webauftritt werden zahlreiche, in teils schwer zugänglichen Publikationen ‘schlafende’ Dialektausdrücke leicht auffindbar (F), zugänglich (A), interoperabel (I) und in allgemein kompatibler Weise nachnutzbar (R) gemacht;  denn alle verfügbaren Formen erhalten einen persistenten Identifikator und werden in Kürze auch über einen Digital Object Identifier (DOI) ansprechbar sein. Hier ein Beispiel aus dem Sprach- und Sachatlas Italiens und der SüdschweizAIS (1928-1940).

VA produziert also gewissermaßen FAIRen Output; allerdings sind die allermeisten Quellen, der Input, von FAIRness meilenweit entfernt; die Gründe dafür sind teils technischer, teils aber auch juristischer, letztlich: kommerzieller Art. In der Regel sind Sprachatlanten ausschließlich als physisches Druckwerk zugänglich; nur sehr wenige bieten wenigstens die elementarste Stufe der Digitalisierung, d.h. digitale Photos (scans) an, wie z.B. der AIS in Gestalt des NavigAIS oder der  SDS im Hinblick auf das Orginalmaterial. Kein einziger älterer Atlas wurde bislang in Form eines strukturierten Korpus aufbereitet, das auch den Export der Daten gestattet. Immerhin konnte eine solche Lösung auf der Basis einer Kooperationsvereinbarung für den ALD gefunden werden; dem Druck dieses Atlas’ von Hans Goebl lag ein digitales Format zu Grunde, das zwar wegen fehlender Identifikatoren der Inhalte nicht interoperabel war, sich aber nach bestimmten Adaptationen als maschinenlesbar und entsprechend nachnutzbar erwies; alle Bezeichnungen relevanter Konzepte erscheinen daher in VerbaAlpina (vgl. das ALD-Ortsnetz und dieses Beispiel).

Findable Accessible Interoperable Reusable
menschl. masch. menschl. masch. masch. menschl. masch.
ALI
SDS + + + +
AIS + + + +
ALD + + + + +
VA + + + + + + +

Anders, deutlich komplexer erscheint die Lage im Bezug auf georeferenzierbare Wörterbücher; die seit kurzem verfügbare Online Version des DRG ist so eingerichtet, dass jedes Lemma dank eines Identifikators als digitales Objekt zugänglich ist (A), so zum Beispiel bargia ‘Schopf’;   ein maschineller Export ist jedoch nicht vorgesehen. Andere, wie der Niev Vocabulari sursilvan online bieten selbst diese Möglichkeit nicht an, so dass an Interoperabilität nicht zu denken ist.

2.3. FAIRness der Kooperation

VA wird von zahlreichen Partner-Projekten  unterstützt; das große Potential dieser Kooperation ist selbstverständlich und bedarf eigentlich keiner Erwähnung. Dennoch soll die konstruktive Perspektive der mehrfachen und komplementären Nachnutzung kompatibler Partnerprojekte an einem Beispiel illustriert werden: Im Rahmen des  Archivio lessicale dei dialetti trentini (ALTR) wurden fünf gedruckte Dialektwörterbücher  unterschiedlicher Talschaften (aus der Zeit zwischen 1955 und 1984) in einer Datenbank zusammengeführt. Dank einer Projektpartnerschaft  konnte VA die relevanten Ausdrücke konvertieren und importieren, so dass sie nun im Kontext aller Alpendialekte kartographisch dargestellt werden können; vgl. die folgende Bezeichnung eines Geräts zum Buttern: smalzaia).

Als interoperabel in der Kooperation hat sich auch die Projektarchitektur und die entsprechende Software bereits erweisen; so konnte probeweise das sizilianische Regional- und Spezialwörterbuch von Sottile 2002 ohne Schwierigkeiten nachgenutzt und als Atlas dargestellt werden (vgl. Atlante linguistico della Sicilia online ); seit dem Herbst 2018 greift auch der im Entstehen begriffene Atlas des Pikardischen in Nordfrankreich und Belgien auf die Konzeption und Technologie von VA zurück (vgl. Verba Picardia).

2.4. FAIRness im Crowdsourcing

Crowdsourcing-Verfahren richten sich in allererster Linie, wenngleich nicht ausschließlich, an Laien; sie setzen deshalb eine intuitiv leichte Auffindbarkeit und Zugänglichkeit zentraler Datenbereiche für menschliche Nutzer voraus. Die Daten werden durch die Art der Erhebung in ein strukturiertes und interoperables Format gebracht, das Nachnutzung gestattet. VA nutzt crowdsourcing in doppelter Weise: Zunächst wurde ein ästhetisch ansprechendes und einfach zu bedienendes Tool zur Datenerhebung programmiert (Mitmachen!); dafür wurde auch ein Tutorial auf Youtube gepostet. Ferner wurde soeben ein Zooniverse-Auftritt eingerichtet, um die für Retrodigitalisierung erforderliche Transkriptionsarbeit wenigstens teilweise an die Crowd weiterzugeben (🔗). Auch dafür ist Interoperabilität der VA-Datenbasis die Voraussetzung.

Das Erhebungstool wurde durch populärwissenschaftliche Vorträge in der Erwachsenenfortbildung einschlägiger Berufsgruppen (am 20.4.2018, 26.2.2018, 7.10.2017) beworben und fand daneben auch ein schönes massenmediales Echo. Die Auswertung ist interessant, denn es zeigt sich, dass vorallem Projektberichte im Internet relevant sind, da dort über einen Link ein direkter, sozusagen intramedialer Zugang angeboten werden kann: Das mit Abstand stärkste Echo fand deshalb ein Post auf der Internetseite des Bayerischen Rundfunks (am 27.4.2018); insgesamt wurden durch die 955 ‘Crowder’ bislang  11486 Dialektformen (Stand: 12.3.2019) beigesteuert  (🔗).

I principi FAIR nel progetto VerbaAlpina, ossia il trasferimento della geolinguistica alle Digital Humanities (Zitieren)

Thomas Krefeld
(1451 Wörter)

Questo contributo corrisponde a una relazione tenuta all’Università di Verona, il 13/12/2018; sono grato a Sara Ingrosso per la revisione stilistica del mio italiano.

 

Premessa alpinistica

Si racconta che uno dei grandi pionieri alpinistici, Albert Frederick Mummery (🔗), scalando la Dent du Géant nel massiccio del Monte Bianco, abbia lasciato sotto una placca di granito una bottiglia contenente un pezzetto di carta su cui era scritto:  

Impossible by fair means.

Noi tutti, lungo la salita verso il trasferimento della dialettologia (e varietistica) tradizionale  a favore di una geolinguistica alpina virtuale, dovremmo ricordare questo bell’aneddoto e invertire la sentenza in modo positivo:

Possible only by FAIR means!

Perché la sigla FAIR, lanciata da una importante iniziativa (🔗) ,  identifica quattro principi etici essenziali per la ricerca virtuale e in particolare per l’umanistica digitale (🔗). Essi esigono che i dati siano:

  • F_indable (rintracciabili),
  • A_ccessible (accessibili),
  • I_nteroperable (scambiabili),
  • R_eusable (riutilizzabili).

Nella parte iniziale della presente relazione verranno contestualizzati tali postulati e verranno poi presentate le modalità con cui il progetto di ricerca VerbaAlpina (= VA) cerchi di applicarli.

La comunicazione scientifica nel web

I principi FAIR sono fondati sul modo in cui funziona (o meglio, in cui dovrebbe funzionare)  la comunicazione e quindi la cooperazione scientifica nell’era dei media digitali. Prima della disponibilità generale di internet, nella ormai lontana, cosiddetta galassia Gutenberg, la comunicazione scientifica era dipendente dalla presenza materiale dei libri cartacei. Ogni forma di cooperazione era pertanto indiretta, compromessa da ostacoli fisici. È possibile affermare che la cooperazione a livello scientifico era mediata dai testi stampati ma non era ancora mediale in sé. Internet ci offre adesso una cornice totalmente nuova con bellissime opzioni di collaborazione. Ciò esige però anche l’adozione di alcune regole elementari (🔗). Va inoltre detto, perché non è ovvio, che i quattro principi operano ai livelli delle comunicazioni puramente elettronica: da un lato solo tra computer (machine readable) e dall’altro tra uomini e computer (human readable) .

Un ambiente di ricerca concepito per il web

Le discipline umanistiche tradizionali si stanno dunque trasferendo al web e il nostro compito è quello di guidare questo processo di addatamento mediale  per quanto possibile – tramite strategie metodologiche del nostro lavoro poiché è ovvio che trasferire ad esempio la dialettologia e la linguistica non vuol dire conservarla al cento per cento. Pare inevitabile rinunciare a certe tradizioni anche costitutive, come ad esempio, le tradizioni discorsive separate (atlante, dizionario, testo analitico, corpus ecc.), perché la forma adeguata alle esigenze  mediali è quella dell’ambiente di ricerca multifunzionale.

VerbaAlpina distingue cinque ambiti complementari e strettamente intrecciati (🔗) ossia:  

  • documentazione;
  • pubblicazione;
  • cooperazione;
  • rilevamento dati;
  • laboratorio di ricerca.

Attualmente siamo impegnati a ottimizzare la corrispondenza degli ambiti con i principi FAIR.

FAIRness della pubblicazione

Internet in sé non è altro che una gigantesca macchina di pubblicazione che ‘pubblica’, per essere precisi, in un senso molto più ampio rispetto ai testi scientifici stampati: su internet vengono messi a disposizione degli utenti

  • contenuto semantico (forme dialettali, testi scientifici),
  • metadati,
  • software e codice (🔗).

VA produce pubblicazioni fisse perché la piattaforma è periodicamente ‘congelata’ dopo 6 mesi ca.; ne risultano delle versioni controllate e stabili (🔗), che sole dovrebbero essere citate.  E‘ importante notare che una nuova versione si aggiunge a quella precedente senza sostituirla: tutte le versioni restano quindi memorizzate in modo da garantire riferimenti e citazioni permanenti. Al di là delle versioni citabili esiste una versione di lavoro (detta versione xxx, accessibile soltanto per gli utenti registrati) che subisce ogni tanto delle modifiche.

Inoltre le versioni di verbaAlpina sono identificabili tramite un DOI attribuito dalla biblioteca universitaria della Ludwig-Maximilians-Universität di Monaco di Baviera http://dx.doi.org/10.5282/verba-alpina. Pertanto VA è rintracciabile nei cataloghi delle biblioteche (🔗 ).

Allo stesso modo sono identificabili i contributi tematici particolari pubblicati sul sito di VA nelle rubriche lessico alpino, metodologia, contributi; questi contributi ricevono automaticamente un DOI e possono quindi essere citati direttamente, ad es.: Krefeld, T. / Lücke, S.: s.v. “butyru(m)”, in: VA-it 18/1, Lexicon alpinum, http://dx.doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D176%26db%3D181%23B128.

A livello tecnico tale processo funziona tramite un export dei file VA in un repositorio della biblioteca universitaria open data lmu dove vengono attribuiti metadati secondo il formatto datacite. Questa esportazione dei file, la quale si ripete con ogni nuova versione VA, garantisce l’accessibilità e il riutilizzo dei dati dopo la fine dei lavori progettuali attivi, quando il finanziamento scadrà.

Una funzione simile vienw eseguita dall‘URN (http://nbn-resolving.de/urn:nbn:de:bvb:19-verba-alpina-8), il quale è rappresentato da un codice registrato dalla Deutsche Nationalbibliothek di Francoforte. Infine anche il codice sorgente programmato da VA è rintracciabile e accessibile al sito github.

Occorre aggiungere due osservazioni che riguardano l’accessibilità e la possibilità di rintracciare i dati pubblicati in tutti gli ambìti.

  1. Coesistono diversi schemi di metadati, e pare opportuno non concentrarsi su uno solo. Accanto a datacite, VA fa anche parte di una iniziativa complementare (GeRDI) sviluppata dal centro di informatica di Monaco (LRZ) con l’intenzione di collegare dati di discipline diverse ma con attributi comuni, ad esempio georeferenziazioni o cronoreferenziazioni.
  2. A parte gli schemi dei metadati che si riferiscono ai dati particolari del progetto è consigliabile inserire dati normativi o identifcatori esistenti anche al di là del progetto. VerbaAlpina utilizza da poco gli identificatori della funzione wikidata; essi forniscono referenze extralinguistiche – quindi onomasiologiche – condivisi dagli articoli in lingue diverse (spesso numerevoli) sullo stesso argomento: quando un qualsiasi articolo wikipedia è aperto, ad esempio burro, appare sul bordo sinistro il pulsante elemento wikidata. Un click rinvia all’identificatore Q34172, cioè all’elemento che tutti i 133 articoli su questo prodotto hanno in comune. Allora è chiaro che un motore che ricerca questo identificatore può rintracciare tutti i file in internet collegati, ad esempio tutte le designazioni dialettali di burro disponibili nel database VA. Lo stesso va assolutamento elaborato per tipi lessicali (LID), e anche per categorie grammaticali (ad es. 1. pers. sing. pres.) e cosí via.

FAIRness della documentazione

VA raccoglie forme dialettali innanzitutto lessicali e etnograficamente alpine, dalle quattro famiglie linguistiche più importanti dell’Europa, cioè quella romanza, germanica e slava. Il materiale è strutturato e annotato sistematicamente secondo criteri semasiologici (tipi morfo-lessicali, tipi di base)  e onomasiologici (concetti); esistono almeno due accessi ai siti appena precisati, uno leggibile elettronicamente e uno leggibile umanamente, sotto forma di carta interattiva. La strutturazione dei dati fornisce allo stesso tempo dei filtri per selezionare mappe interattive; la carta interattiva offre inoltre la possibiltà di condividere una cartina selezionata grazie al pulsante Share This che attribuisce un URL alla mappa selezionata; cf. le designazioni disponibili per il concetto BURRO. Il condividere è un modo elementare di esportazione fattibile per tutti gli utenti, senza conoscenze tecniche.

Il materiale raccolto proviene grosso modo da due fonti. La parte più importane è stata ricavata da atlanti e dizionari stampati o in corso di stampo (come ad esempio dal Sprachatlas von Oberösterreich, ancora incompiuto; cf. la rete degli informanti SAO); l’altra parte risulta dall’ambito crowdsourcing (vd. sotto). Va sottolineato che VA riesce così a rendere accessibili, rintracciabili e sistematicamente riutilizzabili le attestazioni a lungo ‘dormienti’ lungo nelle opere stampate (cf. un esempio dell’AIS, perché è previsto (e quasi realizzato) attribuire un DOI a ogni singola forma disponibile nel database di VA

FAIRness della cooperazione

VA è sostenuto da numerosi progetti partner e la cooperazione ha senz’altro un bel potenziale. In realtà però dipende assolutamente dalla interscambiabilità (interoperability) dei dati. Si sono rivelati esemplari gli scambi con ALD I e ALD II (vd. la rete degli informanti ALD), i cui dati si lasciavano facilmente convertire (cf. l’esempio [smalz|https://www.verba-alpina.gwi.uni-muenchen.de/it/?page_id=27&noredirect=it_IT&tk=90&db=162]]). Ancora più istruttiva è stata la collaborazione con l‘ALTR  che rappresenta già la rielaborazione virtuale di cinque lessici dialettali stampati; tramite l’inserimento (parziale, ovviamente) a VA appaiono sulle carte interattive nel continuum dialettale alpino (cf. ad es. una attestazione di smalzaia).

D’altro canto si è dimostrato anche il carattere intercambiabile del codice VA, il quale verrà utilizzato da un progetto geolinguistico della Francia settentrionale, cioè da Verba Picardia, curato da Pascale Renders dell’Università di Lille.

FAIRness del crowdsourcing

La funzione crowdsourcing  si indirizza esplicitamente  a parlanti, prevalentemente non esperti di linguistica, invitandoli a fornire dati linguistici. È quindi presupposta l’accessibilità di due categorie dei dati VA, ossia i communi georeferenziati e i concetti. Ma già a questo livello della comunicazione con non esperti si apre la possibilità di uno scambio dei dati, perché l’utente ha la possibilità di proporre concetti inesistenti.

 

 

VerbaAlpina – Aspekte der informatischen Konzeption und technischen Realisierung (Zitieren)

Stephan Lücke
(7420 Wörter)

Die folgenden Ausführungen ergänzen und exemplifizieren die Darlegungen von Thomas Krefeld zum sprachwissenschaftlichen Gesamtkonzept von VerbaAlpina (VA). Wiederholungen können dabei nicht vollständig ausgeschlossen werden. Im Zentrum stehen hier die Aspekte der informatischen Konzeption und der konkreten technischen Umsetzung.

VerbaAlpina gliedert sich aufs Ganze gesehen in zwei große Teilbereiche: Ein Datenbanksystem (VA_DB) und eine Webschnittstelle (VA_WEB) mit einer Reihe von Detailfunktionen, die im Folgenden vorgestellt werden. VerbaAlpina besitzt außerdem eine Reihe von Kooperationspartnern, von denen jeder eine eigene Datenbank (PVA) nutzen kann. Die dort gespeicherten Daten können in den Datenbestand von VA_DB einfließen und umgekehrt.

VA_DB

VerbaAlpina basiert im Kern auf einer MySQL-Datenbank, um die herum sich verschiedene Module und Funktionalitäten gruppieren.

Eine MySQL-Datenbank ist eine sog. relationale Datenbank, was, stark vereinfacht gesprochen, bedeutet, dass die dort abgelegten Daten in Tabellengestalt organisiert sind. Die Datenstrukturierung erfolgt nach ganz bestimmten Regeln, die vom sog. relationalen Datenmodell vorgegeben sind. Dieses besagt im wesentlichen, dass alle Daten, die in einer Tabelle versammelt werden, Vertreter ein und derselben „Objektklasse“ – ein und derselben „Entität“ – sein müssen. Dies hat zur Folge bzw. gleichermaßen zur Voraussetzung, dass alle in einer Tabelle gespeicherten Daten identische Eigenschaftskategorien aufweisen müssen. So wären beispielsweise in einer Tabelle, in der Informationen über Autos gespeichert werden sollen, Eigenschaftskategorien wie „Farbe“ oder „Höchstgeschwindigkeit“ sinnvoll. Eine Liste mit Personen in dieser Tabelle unterbringen zu wollen, wäre nicht möglich bzw. sinnlos. Sie müsste in einer eigenen Tabelle abgelegt werden, die Eigenschaftskategorien wie „Geburtsort“, „Geschlecht“ oder „Wohnort“ aufweisen würde. Es gibt noch eine Reihe weiterer Regeln, die bei der Anlage einer relationalen Datenbanktabelle beachtet werden müssen bzw. beachtet werden sollten. Dazu gehört z.B. das Gebot, dass eine Tabelle keine Redundanzen enthalten darf oder dass in einem Feld einer Tabelle jeweils nur „atomare“ Werte und keine Wertelisten abgelegt werden dürfen. Die schrittweise Anpassung einer Datenstruktur an das Idealbild des relationalen Datenmodells nennt man „Normalisierung“.

Die von VerbaAlpina gesammelten Daten werden also getreu den eben skizzierten Regeln in den Tabellen einer MySQL-Datenbank abgelegt. Die Strukturierung der Daten folgt dabei dem vom Projekt verfolgten Hauptinteresse: Welche Konzepte werden oder wurden zu welcher Zeit an welchem Ort mit welchen Wörtern bezeichnet? Dieser Satz gibt die Kategorien der zentralen Datenstruktur vor. In Gestalt einer relationalen Tabelle stellt sich der Untersuchungsgegenstand demnach folgendermaßen dar:

Konzept Bezeichnung wann wo
RAHM Rom 1962-2003 Sennwald
SENNHÜTTE Sennhaus 1985-2004 Hohenems
DREHBUTTERFASS Ankenkübel 1962-2003 Mollis
ZIEGENHIRT chevrier / capraio 2005 Romeno
ALMHÜTTE Käser 1965, 1969, 1971 Laces###D:Latsch
BIESTMILCH Biestmilch 2017 Ebenau
SCHEUNE feniera 1975, 1979, 1986 Reillanne
BUTTER rance / rancido 1928-1940 Ramosch
BAUERNHOF kmetija 2011ff. Železniki
EIMER lambar 2011ff. Dobrova-Polhov Gradec

Die Tabelle wirft sofort Fragen auf, deren Antworten wiederum an einer geeigneten Stelle innerhalb des vorgegebenen relationalen Datenmodells untergebracht werden müssen. So wäre z.B. zu fragen, aus welcher Quelle die entsprechende Information stammt. Im Fall von VerbaAlpina sind dies, zumindest bislang, überwiegend Sprachatlanten, z.T. auch Wörterbücher mit georeferenziertem Inhalt, daneben aber auch Daten, die über das Internet gesammelt wurden. Eine weitere Frage wäre, wo die genannten Ortschaften genau liegen, vielleicht auch wieviele Einwohner sie haben usw. All diese Daten würden also entweder in neue Spalten der  vorliegenden Tabelle oder auch, nötigenfalls, in neue Tabellen eingetragen werden. Im Fall der genannten Ortschaften bietet es sich schon deswegen an, sie in einer neuen Tabelle zu speichern, weil die meisten der Ortschaften in der Tabelle mit den Sprachbelegen mehrfach auftreten. Informationen zur geographischen Lage oder Einwohnerzahl müssten andernfalls in der Sprachdatentabelle mehrfach gespeichert werden, was dem Gebot der Redundanzvermeidung widersprechen würde.

Ein relationales Datenbankmanagementsystem wie MySQL erlaubt die problemlose Verknüpfung der auf verschiedene Tabellen verteilten, aber dennoch zusammengehörigen Daten.

Die Erfassung und Strukturierung der von VerbaAlpina bearbeiteten Daten wird auf diese Weise sehr schnell sehr komplex. Aktuell (Mai 2018) besteht die Datenbank von VerbaAlpina (VA_DB) aus

  • 128 Tabellen, die um
  • 12 sog. Views (virtuelle Tabellen)
  • 21 Funktionen und
  • 35 Prozesse

ergänzt werden. Eine Reihe dieser Datenbankobjekte haben jedoch eine rein technische Funktion oder sind temporär.

Die Organisation der Sprachdaten im relationalen Datenformat hat gegenüber der herkömmlichen Repräsentation in Sprachatlanten und Wörterbüchern entscheidende Vorteile. Während Sprachatlanten jeweils nur die onomasiologische Perspektive bedienen, also die Frage beantworten können, mit welchen Wörtern ein ausgewähltes Konzept bezeichnet wird, und Wörter umgekehrt ausschließlich darüber Auskunft geben, welche Konzepte von einer ausgewählten Vokabel bezeichnet werden können (semasiologische Perspektive), vereint das relationale Datenmodell beide Möglichkeiten in einem System.

Neben dem relationalen Datenformat existiert noch eine Reihe weiterer Datenformate wie z.B. XML, JSON oder Graphen (= Strukturen mit Knoten und Kanten). Für welches dieser Formate man sich entscheidet, liegt zum einen an den Eigenheiten des abzubildenden Gegenstands daneben aber durchaus auch an persönlichen Vorlieben. Grundsätzlich gilt, dass einmal strukturierte Daten, die in einem bestimmten Datenformat vorliegen, in andere Datenformate transformiert werden können. So ist es z.B. möglich, die Tabellen einer MySQL-Datenbank im XML-Format auszugeben. Die speziell für MySQL-Datenbanken entwickelte generische Webschnittstelle PhpMyAdmin (PMA) bietet für dieses und andere Datenformate vorgefertigte Exportroutinen. Im folgenden Beispiel werden gefilterte Daten aus der Tabelle vap_ling_de in eine XML-Datei exportiert. Das entsprechende Dialogfeld von PMA sieht folgendermaßen aus:

Die Auswahlliste zeigt die verschiedenen Formate, in die die Daten exportiert werden können. Nach Auswahl von XML wird vom Browser eine Datei heruntergeladen, die die Daten im gewünschten Format enthalten. Hier ein Ausschnitt der XML-Datei:

Das vorliegende Format ist generisch und mag im Einzelfall nicht den spezifischen Erfordernissen entsprechen. Mit etwas erweiterten technischen Kenntnissen lassen sich jedoch im Grunde beliebige Datenformate erzeugen und exportieren.

Ein wichtiger Grund, warum sich VerbaAlpina für das relationale Datenformat entschieden hat, ist die Tatsache, dass dergestalt strukturiertes Datenmaterial nach den Regeln der relationalen Algebra analysiert werden kann. Für entsprechende Operationen sowie generell für die Verwaltung relationaler Datenbestände steht eine spezielle formale Sprache, die sog. Structured Query Language, kurz SQL, zur Verfügung. Ihre Syntax basiert auf der englischen Umgangssprache und ist relativ leicht zu erlernen. Grundlegend sind die Konzepte der Selektion und der Projektion. Mit Selektion ist die Auswahl von Zeilen, die bestimmte Kriterien erfüllen, gemeint, Projektion bezeichnet demgegenüber die Auswahl von Spalten. Sämtliche mit der Sprache SQL ausführbaren Operationen basieren letztlich auf den Regeln der relationalen Algebra.

Um nun mit Hilfe von SQL sämtliche Vokabeln aus dem Datenbestand herauszufiltern, die ein ganz bestimmtes Konzept bezeichnen, muss ein entsprechender Filter formuliert werden. Da  bei diesem Vorgang Zeilen, und keine Spalten, ausgewählt werden, handelt es sich um eine Selektion. Das Beispiel geht davon aus, dass die Daten in einer Tabelle mit Namen „Belege“ abgelegt wurden. Eine entsprechende Tabelle ist in der Datenbank von VerbaAlpina nicht vorhanden. Die konkrete Syntax lautet dann wie folgt:

select * 
from Belege 
where konzept = "SENNHÜTTE"
;

Ergebnis:

Konzept Typ wann wo
SENNHÜTTE Sennhaus 1985-2004 Lustenau
SENNHÜTTE cascina 1928-1940 Bivio
SENNHÜTTE cabotte 1928-1940 Borgomaro
SENNHÜTTE casero 1974-1986 Forni Avoltri
SENNHÜTTE baita 1928-1940 Colico
SENNHÜTTE Käser 2017 Schmirn
SENNHÜTTE cascharia 1928-1940 Soglio (Graubünden)
SENNHÜTTE Schwaige 2017 Villandro###D:Villanders
SENNHÜTTE casa 1928-1940 Lanzada
SENNHÜTTE Alp(e) 1962-2003 Davos
SENNHÜTTE Sennhütte 1985-2004 Alberschwende
SENNHÜTTE casone 1928-1940 Antrona Schieranco

Um umgekehrt die verschiedenen Bedeutungen des italienischen Wortes malga zu ermitteln, formuliert man:

select * 
from Belege 
where Bezeichnung = "malga"
;

Ergebnis:

Konzept Typ wann wo
ALM malga 2012 Moena
ALMHÜTTE Malga 1965, 1969, 1971 Salorno###D:Salurn
HERDE malga 1928-1940 Ardez
HIRTENHÜTTE malga 1974-1986 Ravascletto
KUHHERDE malga 1928-1940 Albosaggia
SENNHÜTTE malga 1928-1940 Rabbi

Die Möglichkeiten von SQL sind schier grenzenlos, und es kann hier nur darum gehen, durch wenige Beispiele eine ungefähre Vorstellung zu vermitteln.

Das folgende Beispiel illustriert, wie sich aus einer bestimmten Tabelle der VerbaAlpina-Datenbank sämtliche morpholexikalischen Typen, die das Konzept BUTTER bezeichnen, extrahieren lassen. Das Ergebnis zeigt außerdem die Anzahl der bislang in VA_DB erfassten Einzelbelege, die dem jeweiligen morpholexikalischen Typ zugeordnet sind:

-- SQL-Statement
-- Finde sämtliche morpholexikalischen Typen, die das Konzept BUTTER bezeichnen, 
-- und gib die jeweilige Häufigkeit des morpholexikalischen Typs an

select 
 Name_Konzept as Konzept, 
 group_concat(typ, ' (', anzahl, ')' separator ', ') as Morphtypen 
from
(
 select 
  count(*) as Anzahl, 
  a.Name_Konzept, 
  a.Typ 
 from vap_ling_de a
 where 
  a.Name_Konzept like 'BUTTER'
  and a.Art_Typ like 'Morph_Typ'
 group by a.Typ
 order by Anzahl desc
 ) sq
;

-- Ergebnis
BUTTER: beurre / burro (1264), Anke (866), Butter (348), Schmalz (271), paintg (96),
éponge / spongia (64), smalz (42), Buttern (24), unto (21), süßes Schmalz (20), puter (19),
pischada (19), Schmalzbutter (8), smalz crü (6), maslo (4), rance / rancido (3), bütér (3), 
menata (3), fiore (2), balle / palla (2), süess Schmalz (2), süesses Schmaalz (2), 
Brütschi (1), süess Schmaalz (1), brusco (1)

Im Vorgriff auf die weiter unten vorgestellten Funktionen der Webschnittstelle von VerbaAlpina (VA_WEB) sei hier erwähnt, dass das von VerbaAlpina verwendete WordPress-System die direkte Einbindung der Ergebnisse von Datenbankabfragen in WordPress-Beiträge wie den vorliegenden erlaubt. Diese Funktion wurde als sog. WordPress-Plugin („SQLtoHTML“) von VerbaAlpina entwickelt und steht als Modul auch für im Grunde beliebige andere WordPress-Installationen zur Verfügung. Das soeben vorgestellte SQL-Beispiel kann, eingebettet in eine spezifische Syntax, in den Text eines WordPress-Beitrags eingebettet werden. Im Frontend erscheint dann anstelle des Codes das Ergebnis der Abfrage.

Code (darf keinen Zeilenumbruch enthalten):

[[SQL:select Name_Konzept as Konzept, group_concat(typ, ' (', anzahl, ')' separator ', ') as Morphtypen from ( select count(*) as Anzahl, a.Name_Konzept, a.Typ from vap_ling_de a where a.Name_Konzept like 'BUTTER' and a.Art_Typ like 'Morph_Typ' group by a.Typ order by Anzahl desc ) sq ]]

Ergebnis im Frontend:

Ein weiteres Beispiel für die Möglichkeiten von SQL zeigt, wieviele verschiedene Basistypen den morphologischen Typen zur Bezeichnung des Konzepts SENNHÜTTE zugrundeliegen und wieviele morphologische Typen pro Basistypen bislang registriert sind:

-- SQL-Statement
/* 
Errechne die Anzahl von morphologischen Typen, die das Konzept SENNHÜTTE bezeichnen 
und die jeweils mit demselben Basistypen verbunden sind: 
  • /
select count(*) as Anzahl, sq.basistyp, group_concat(Typen separator ' | ') as Morphtypen from ( select distinct a.Basistyp, concat(a.Typ, ' (', a.Art_Typ, ')') Typen from vap_ling_de a where a.Name_Konzept like 'SENNHÜTTE' and a.Basistyp is not null ) sq group by basistyp order by Anzahl desc ; -- -- -- Ergebnis 14: căsa(m): casino (Morph_Typ) | casini (Morph_Typ) | Casel (Morph_Typ) | casone (Morph_Typ) | casa (Morph_Typ) | casa da/di alp (Morph_Typ) | casella (Morph_Typ) | casello (Morph_Typ) | casa da fuoco (Morph_Typ) | casine (Morph_Typ) | casa da caschar (Morph_Typ) | casina (Morph_Typ) | caseta (Morph_Typ) | casinel (Morph_Typ) 8: hutta: Sennhütte (Morph_Typ) | Sentumhitta (Morph_Typ) | Hütte (Morph_Typ) | Almhütte (Morph_Typ) | Melkhütte (Morph_Typ) | Sennerhütte (Morph_Typ) | Berghütte (Morph_Typ) | Alphütte (Morph_Typ) 5: *sanio: Sennerei (Morph_Typ) | Sennhütte (Morph_Typ) | Sentumhitta (Morph_Typ) | Sennerhütte (Morph_Typ) | Sennhaus (Morph_Typ) 5: alpe: Alp(e) (Morph_Typ) | casa da/di alp (Morph_Typ) | Almhütte (Morph_Typ) | Alphütte (Morph_Typ) | cascina da/di alp (Morph_Typ) 5: alpes: Alpgemach (Morph_Typ) | Alp(e) (Morph_Typ) | Almhütte (Morph_Typ) | Alphütte (Morph_Typ) | Alm (Morph_Typ) 4: căpsa(m): cascina dal fuoco (Morph_Typ) | cascina per caschar (Morph_Typ) | cascina (Morph_Typ) | cascina da/di alp (Morph_Typ) 4: caseāria: Käser (Morph_Typ) | Chäseren (Morph_Typ) | casera (Morph_Typ) | caserìn (Morph_Typ) 3: *tegia: Teie(n) (Morph_Typ) | Tieje (Morph_Typ) | Tegia (Morph_Typ) 3: baita: baita (Morph_Typ) | baito (Morph_Typ) | bait (Morph_Typ) 2: *caseare: cascina per caschar (Morph_Typ) | casa da caschar (Morph_Typ) ... -- gekürzt

Das Beispiel zeigt z.B., dass insgesamt 14 unterschiedliche morpholexikalische Typen, die das Konzept SENNHÜTTE bezeichnen könnten, mit dem Basistypen „casa(m)“ verbunden sind.

Das relationale Datenmodell und die Abfragesprache SQL erlauben auch weitergehende arithmetische und in der Folge statistische Berechnungen über dem Datenbestand. Das nachfolgende Beispiel berechnet den prozentualen Anteil der einzelnen Basistypen an der Gesamtzahl aller morpholexikalischer Typen, die das Konzept SENNHÜTTE bezeichnen:

-- SQL-Statement
-- Errechne den prozentualen Anteil der einzelnen Basistypen 
-- an der Gesamtzahl aller morpholexikalischer Typen, die das Konzept SENNHÜTTE

select 
 sq.basistyp as Basistyp,
 count(*) as Anzahl, 
 round(count(*) / (
  select count(*)
  from
  (
   select 
    a.Basistyp
   from vap_ling_de a
   where 
    a.Name_Konzept like 'SENNHÜTTE'
    and a.Basistyp is not null
   group by basistyp
  ) sq0
 ) * 100,2) as Prozentanteil

from
(
select distinct
 a.Basistyp,
 concat(a.Typ, ' (', a.Art_Typ, ')') Typen
from vap_ling_de a

where 
 a.Name_Konzept like 'SENNHÜTTE'
 and a.Basistyp is not null
) sq

group by basistyp

order by Anzahl desc
;

-- Ergebnis
Basistyp | Anzahl | Prozentanteil
căsa(m) | 14 | 41.18
hutta | 8 | 23.53
alpe | 5 | 14.71
alpes | 5 | 14.71
  • sanio | 5 | 14.71
caseāria | 4 | 11.76 căpsa(m) | 4 | 11.76
  • tegia | 3 | 8.82
baita | 3 | 8.82 ... -- gekürzt

Ende Mai 2018 umfasste die VerbaAlpina-Datenbank insgesamt

  • 1167 unterschiedliche Konzepte sowie
  • 5446 verschiedene morphologische Typen.

VA_WEB

Die zentrale Datenbank von VerbaAlpina, VA_DB, ist angebunden an die multifunktionale Webschnittstelle, die unter der Adresse https://www.verba-alpina.gwi.uni-muenchen.de (VA_WEB) im Internet erreichbar ist.

VA_WEB ist mit dem weit verbreiteten WordPress-Framework in den Programmiersprachen PHP und Javascript programmiert. Die Entwickler von VerbaAlpina haben eine Reihe von VerbaAlpina-spezifischen Funktionserweiterungen geschrieben. All diese Funktionserweiterungen sind modular als sog.Plugins“ – wie das bereits weiter oben erwähnte SQLtoHTML-Plugin – konzipiert, die frei zur Verfügung gestellt und nach Belieben auch in andere WordPress-Installationen übernommen werden können.

VA_WEB gliedert sich in einen öffentlichen Bereich, das sog. Frontend, und einen zugangsbeschränkten Bereich, das sog. Backend. Das Frontend ist gleichsam das Schaufenster des Projekts. Hier findet sich das bislang zentrale Analyseinstrument, die interaktive Onlinekarte, auf der das in der Datenbank gesammelte Material nach vorgegebenen Kriterien visualisiert werden kann. Eine besondere Bedeutung kommt dem Bereich „Methodologie“ zu. Hier werden nach Stichworten gegliedert sämtliche Aspekte des Gesamtprojekts, von den wissenschaftlichen Grundlagen bis hin zur Erläuterung technischer Details und Vorgehensweisen, allgemeinverständlich erläutert und dokumentiert. Die Sektion „Methodologie“ wird ständig erweitert bzw. nötigenfalls auch überarbeitet.

Das Web-Frontend dient auch als zentrale Publikationsplattform des Projekts. Unter der Rubrik „Beiträge“ finden sich neben allgemeinem Informationsmaterial für die Öffentlichkeit auch ausgwählte Vorträge, die von den Projektmitarbeitern auf wissenschaftlichen und populären Veranstaltungen gehalten werden, sowie wissenschaftliche Beiträge in Artikelform.

Funktionen des Backends

Das Backend von VA_WEB bietet über die von WordPress standardmäßig bereitgestellten Basisfunktionen, zu denen auch die von VA verwendete Benutzerverwaltung gehört, eine Reihe von überwiegend individuell entwickelten Zusatzfunktionen, die in der Projektarbeit Verwendung finden:

Transkriptionstool

Die Erfassung von Daten speziell aus Sprachatlanten kann bislang nur manuell erfolgen. Der Einsatz von OCR (= Optical Character Recognition = automatische Verwandlung von Graphikdaten in elektronisch kodierten Text) ist in diesem Kontext nicht möglich. Das Hauptproblem besteht in der Zuordnung der auf den Karten eingetragenen Einzelbelege zu den jeweils richtigen Erhebungspunkten. Im folgenden Beispiel ist es für einen Computer de facto unmöglich zu entscheiden, welchem der durch die roten Zahlen bezeichneten Erhebungspunkte der grün markierte Beleg zuzuordnen ist.

AIS-Karte 1218: Il siero del latte

Seit wenigen Wochen sind am Leibniz-Rechenzentrum (LRZ) bzw. am Lehrstuhl Prof. Kranzlmüller (Lehrstuhl für Kommunikationssysteme und Systemprogrammierung der LMU) ein, eventuell auch zwei Masterarbeiten ausgeschrieben, die Lösungsansätze für dieses Problem entwickeln sollen.

Die Datenerfassung kann dann automatisch unter Verwendung von OCR erfolgen, wenn das Material in der analogen Quelle in Tabellen- bzw. Listenform vorliegt. Gute Erfahrungen liegen mit dem Programm ABBYY Finereader vor. Das folgende Beispiel stammt aus dem Atlante Linguistico ed Etnografico del Piemonte Occidentale (ALEPO)

Daten in Listenform (hier: Alepo III-i-1: PARASSITI) erlauben den Einsatz von OCR

Aus dargelegten Gründen ist eine automatische Datenerfassung speziell von Datenmaterial aus Sprachatlanten bislang nicht möglich und eine manuelle Erfassung unumgänglich. Zur Erleichterung dieser Arbeit wurde ein spezielles Transkritptionstool entwickelt:

Das Transkriptionstool von VerbaAlpina

In einem Fensterausschnitt wird ein Bild einer Atlaskarte präsentiert. Unmittelbar darunter befindet sich ein Formular, das die strukturierte Erfassung der Kartendaten erlaubt bzw. auch erzwingt. Jeder Einzelbeleg auf der Karte wird unter Angabe des kartierten Stimulus und der Identifizierung des jeweiligen Informanten erfasst und direkt in einer Datenbanktabelle abgelegt. Die Transkription erfolgt im sog. Betacode, einem Verfahren, das auf eine Idee des Thesaurus Linguae Graecae (University of California Irvine) aus den Siebzigerjahren zurückgeht. Grundidee ist, beliebige Sonderzeichen samt Diacritica in Sequenzen von Standardzeichen (konkret: sog. ASCII-Zeichen) zu übertragen. Dabei werden Sonderzeichen und Diacritica nach einem simplen Schema in Abfolgen von Buchstaben des englischen Alphabets und geläufige Satz- und Sonderzeichen wie etwa runde Klammern oder Schrägstriche übertragen. Im Transkriptionstool wird dem Transcriptor auf der rechten Fensterseite das entsprechende Regelwerk eingeblendet.

Zur Herstellung von Vergleichbarkeit werden alle von VA erfassten phonetisch transkribierten Einzelbelege auf das Internationale phonetische Alphabet (IPA) abgebildet. IPA hat demnach innerhalb von VA den Status einer Referenztranskription. Bei der Überführung der quellentreuen Betacode-Transkription nach IPA kann es jedoch, unvermeidbar, zu Informationsverlusten kommen. Als Beispiel sei das Transkriptionssystem nach Böhmer und Ascoli genannt. Dieses unterscheidet durch Diacritica bei den Vokalen eine größere Anzahl von Öffnungsgraden des Mundes als IPA. Bei der Übertragung von Böhmer/Ascoli zu IPA müssen demnach Kompromisse eingegangen werden.

Krefeld, T. / Lücke, S.: s.v. “Betacode”, in: VA-de 17/2, Methodologie, https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=493&db=172&letter=B#7

Die bei der Transkription verwendeten Zeichen sind ausnahmslos sogenannte ASCII-Zeichen. Dabei handelt es sich um Zeichen, die bereits im Jahr 1963 kodiert worden sind. Mit Kodierung ist dabei die Zuordnung der Schriftzeichen zu ganz bestimmten Zahlenwerten gemeint. Dies ist nötig, weil Computer nur mit Zahlen arbeiten können. Kodiert wurden insgesamt 128 Schriftzeichen, bei denen es sich hauptsächlich um die Buchstaben des englischen Alphabets, die arabischen Ziffern sowie um einige Satz- und Sonderzeichen handelt. Die damals festgelegte Kodierung ist bis zum heutigen Tage gültig. Anders als z.B. bei der Verwendung des moderneren Unicode ist die Gefahr des Entstehens von Kodierungsfehlern so gut wie ausgeschlossen. Allgemein bekannt dürfte folgendes Phänomen sein: Der deutsche Umlaut ü wird durch zwei sinnlose Zeichen dargestellt: Mühle ⇒ Mühle. Dergleichen ist bei Verwendung von ASCII-Zeichen ausgeschlossen.

Daneben bietet der Einsatz des Betacodes weitere Vorteile:

  • Die Transkriptionen können unter Verwendung von Standardtastaturen durchgeführt werden
  • Es ist unerheblich, ob ein Transkriptor die konkrete Bedeutung der von ihm erfassten Schriftzeichen kennt. Die Übertragung orientiert sich allein an der graphischen Gestalt der zu transkribierenden Zeichen.
  • Die Transkription ist kaum anfällig für Tippfehler und erfolgt in vergleichsweise hoher Geschwindigkeit
  • Die Transkription ist insofern quellentreu, als dabei keinerlei Informationsverlust auftritt – jedes Basiszeichen und jedes Diacriticum wird durch jeweils genau ein anderes Zeichen wiedergegeben.

Die von den gedruckten oder auch digitalen Quellen verwendeten Transkriptionssysteme sind sehr unterschiedlich. So kann ein und dasselbe graphische Zeichen, z.B. ein e mit einem Punkt darunter, durchaus unterschiedliche Laute bezeichnen. Um Vergleichbarkeit zu erzielen, werden sämtliche quellenspezifischen Transkriptionssysteme auf eine Referenztranskritption, nämlich IPA, abgebildet. Der entsprechende Vorgang erfolgt automatisch durch Ersetzungsprozeduren.

Typisierungstool

Die aus den unterschiedlichen Quellen, also im wesentlichen Sprachatlanten und Wörterbüchern, transkribierten Belege sind hinsichtlich ihres Status sehr heterogen. VerbaAlpina unterscheidet diesbezüglich im wesentlichen zwischen den folgenden Kategorien:

Einzelbeleg   —   morpholexikalischer Typ   —   Basistyp

Ein Einzelbeleg ist die mehr oder weniger unmittelbare und individuelle Äußerung eines Informanten. In Sprachatlanten ist sie meist daran erkennbar, dass sie in phonetischer Transkription und gebunden an einen spezifischen Informanten oder Erhebungspunkt gebunden ist.

Ein morpholexikalischer Typ (kurz: Morphtyp) sind am ehesten vergleichbar mit den Lemmata in traditionellen Wörterbüchern. Ein Morphtyp wird definiert durch die Zugehörigkeit zu einem jeweils gemeinsamen Wortstamm, Sprachfamilie, Wortart, Affigierung sowie Genus. Beispiel: Der Butter und die Butter bilden zwei unterschiedliche Morphtypen, da sie sich hinsichtlich des Genus unterscheiden.

Der Basistyp ist schließlich ein in unterschiedlichen Morphtypen erkennbares gemeinsames lexikalisches Element, ohne dass damit eine Aussage über die Entstehungsgeschichte des einzelnen Morphtypen getroffen werden würde. Vorstellbar in diesem Zusammenhang wären z.B. die Entstehung eines Morphtypen direkt aus einer sprachlichen Vorstufe am Ort im Sinne eines Etymons, jedoch kommen auch Entlehnungsszenarien im Umfeld von Sprachkontakt in Betracht. Als Beispiel können die beiden Morphtypen Salamander (ger.) und Salamandra (rom.) genannt werden. Beide enthalten erkennbar ein gemeinsames lexikalisches Element. Ob aber der eine Morphtyp sich aus dem anderen entwickelt hat oder beide auf einen gemeinsamen Vorläufer zurückgehen, lässt sich vor der Hand nicht entscheiden. Um dennoch die offenkundige Verwandtschaft der beiden Morphtypen im Datenbestand abbilden zu können, werden bei dem Basistypen „salamandra“ zugewiesen. VerbaAlpina geht speziell diesen Fragen nicht systematisch nach, entsprechende spätere Erweiterungen und Ergänzungen sind jedoch jederzeit möglich.

Gleichsam die Referenzkategorie für VerbaAlpina stellt der Morphtyp dar. Speziell für die Zuweisung der transkribierten Belege zu Morphtypen wurde in VerbaAlpina das sog. Typisierungstool entwickelt. Neben der Zuweisung zu Morphtypen erfolgt hier auch die Zuweisung zum jeweiligen Konzept, das laut Quelle von diesem Morphtyp bezeichnet wird.

Sofern möglich, können Morphtypen im Typisierungstool auch mit Lemmata in ausgewählten Referenzwörterbüchern verknüpft werden. Als Beispiel sei der Einzelbeleg tɔːiə aus dem Vorarlberger Sprachatlas (VALTS, Karte 73) genannt. Dieser ist über das Typisierungstool zunächst dem Morphtypen „Teie(n) – ger – sub“ und dieser wiederum dem Lemma „Teien“ im Schweizerdeutschen Wörterbuch, dem sog. Idiotikon, zugewiesen.

VerbaAlpina sieht grundsätzlich auch die Definition und Zuordnung von phonetischen Typen (z.B. Kas, Kaas -> Kaas vs. Kees, Käs -> Kees etc.) vor. Da das Projekt jedoch vorrangig morpholexikalisch ausgerichtet ist, liegt eine entsprechende Typisierung bislang erst lückenhaft vor. Derzeit (Juni 2018) stehen den 5446 morphologischen gerade einmal  646 phonetische Typen gegenüber.

Konzeptbaum

Ganz wesentlich für VerbaAlpina ist die außersprachliche Kategorie der Konzepte. Schließlich lautet die zentrale Frage: Welche Konzepte werden wo und wann mit welchen Morphtypen bezeichnet. Zur Verwaltung der Konzepte wurde von VA ein im Backend von VA_WEB zugängliches Tool entwickelt, das als Konzeptbaum bezeichnet wird.

Nach Aufruf des Tools muss zunächst eine der vorgegebenen Hauptkategorien (z.B. Milchverarbeitung) und anschließend eine Unterkategorie (z.B. Produkte) ausgewählt werden. Danach erscheint eine alphabetisch sortierte Liste aller bislang angelegten Konzepte. Die Elemente dieser Liste könnten durch Drag&Drop zu Unterkonzepten bestehender anderer Konzepte umgruppiert werden. Auch die Neuanlage von Konzepten ist hier möglich.

Forschungslabor (in Planung)

VerbaAlpina möchte sich u.a. zu einer Plattform entwickeln, auf der Forscher und Laien individuelle Studien betreiben und sich bzw. auch ihre Daten austauschen können. Das Konzept sieht vor, dass registrierte Benutzer nach dem Einloggen in VerbaAlpina eine persönliche Umgebung vorfinden, innerhalb derer sie zum einen das vorhandene VerbaAlpina-Datenmaterial nach individuellen Interessen analysieren und die Ergebnisse abspeichern können. Zum anderen soll es möglich sein, eigenes Material in das System zu importieren und dieses dann entweder isoliert oder auch in Kombination mit dem VerbaAlpina-Material zu verarbeiten.

So wie nunmehr schon in vielen Internet-Diensten etabliert, soll es die Möglichkeit geben, Daten und Analyseergebnisse für den Zugriff durch Dritte freizugeben. Diese Freigabe soll mehrere Optionen anbieten: Freigabe für spezifische andere registrierte Benutzer von VerbaAlpina, Freigabe für alle registrierten Benutzer von VA und schließlich die unbeschränkte Freigabe von Daten im Internet. Das Konzept orientiert sich grob am von Google eingesetzten Verfahren im Zusammenhang mit von Nutzern erstellten Karten auf Google Maps.

Das Konzept ist bislang erst in Ansätzen realisiert. Ein solcher Ansatz besteht in der Möglichkeit, auf der interaktiven online-Karte von VerbaAlpina durch die Auswahl beliebiger sprachlicher und außersprachlicher Datenkategorien erzeugte Kartenbilder als „synoptische“ Karten abzuspeichern. Diese Funktion steht aktuell nur registrierten Benutzern zur Verfügung. Beim Abspeichern einer Karte besteht die Möglichkeit, einen Kommentar beizufügen, der den Informationsgehalt der Karte erläutern soll. Für eine erstellte synoptische Karte kann eine Freigabe beantragt werden. Diese erfolgt dann erst nach einer qualitätssichernden Überprüfung durch das Team von VerbaAlpina. Bei künftig verstärkter Nutzung dieser Möglichkeiten wird man über alternative Konzepte zur Qualitätssicherung nachdenken müssen. Vorstellbar sind z.B. Bewertungen durch die Nutzergemeinde von VerbaAlpina.

Im Forschungslabor könnte auch ein Modul zur statistischen Analyse der VerbaAlpina-Korpusdaten eingerichtet werden. An den Instituten für Statistik und Kunstgeschichte wird zur Zeit ein System entwickelt, bei dem es um die statistische Analyse von Museumsbeständen geht. Das Konzept von MAX (Museum Analytics; https://www.max.gwi.uni-muenchen.de/; ein von der LMU im Rahmen des „Qualitätspakts Lehre“ gefördertes Projekt) beinhaltet auch das Szenario, dass Anwender im Grunde beliebige Daten z.B. im csv-Format in das System importieren, um es dort mit vorgefertigten Verfahren statistisch zu analysieren. Künftig sollen  die im Rahmen von MAX entwickelten Funktionalitäten in das Forschungslabor von VerbaAlpina integriert werden.

Funktionen des Frontends

Methodologie

In der Rubrik Methodologie erfolgt eine ausführliche Methodenreflexion. Hier sollen alle mit VerbaAlpina verbundenen Aspekte transparent und nachvollziehbar dokumentiert werden. Der Inhalt ist nach Schlagworten gegliedert, die wiederum thematischen Kategorien zugeordnet sind. Hier werden neben grundlegenden Konzepten des Gesamtprojekts auch spezifisch linguistische oder auch informatisch-technische Detailaspekte erläutert. Die Einträge in dieser Rubrik werden ständig erweitert oder nötigenfalls auch überarbeitet und angepasst. Die Methodologie spielt eine wichtige Rolle im Hinblick auf das Erfordernis der Nachhaltigkeit und Nachnutzbarkeit aller von VerbaAlpina gesammelten und erzeugten Daten. Der Anspruch besteht, dass sämtliche Teile des Gesamtprojekts, seien es die Sprachdaten in der VA_DB, die sprachwissenschaftlichen Kommentare und (mit gewissen Einschränkungen) auch der erzeugte Software-Code auch noch nach Jahrzehnten nutzbar sein werden.

Interaktive Online-Karte

Die interaktive Online-Karte von VA ist das zentrale Visualisierungs- und Analyseinstrument. Aktuell basiert die Karte auf Google-Technologie, konkret auf dem Online-GIS Google Maps und der entsprechenden Javascript-Bibliothek. VerbaAlpina ist im Grunde der Überzeugung, dass der Einsatz von Diensten kommerzieller Anbieter im wissenschafftlichen Umfeld generell vermieden werden sollte. Speziell im Fall der online-Kartographie führt derzeit jedoch kaum ein Weg an Google Maps vorbei. Das Opensource-Projekt Openstreetmap (OSM), das grundsätzlich eine Alternative darstellen könnte, kann hinsichtlich Funktionalität und, was fast noch wichtiger ist, hinsichtlich der Dokumentation mit dem Google-Dienst nicht mithalten. Bei Einsatz von Openstreetmap hätte sehr wahrscheinlich der aktuelle Entwicklungsstand der online-Karte von VerbaAlpina nicht in derselben Zeit erreicht werden können. Grundsätzlich wäre eine Umsetzung der online-Karte auf OSM rein technisch wohl möglich. Sollten in Zukunft Verbesserungen bei OSM festzustellen sein, die einen Umzug vertretbar erscheinen lassen, so wäre ein solcher Schritt durchaus vorstellbar. VerbaAlpina behält diese Perspektive jedenfalls im Auge.

Das Karteninterface erlaubt wahlweise oder auch kombiniert semasiologischen und/oder onomasiologischen Zugriff auf den Datenbestand. Nachfolgend stehen unterschiedliche Gruppierungsoptionen zur Verfügung.

Qualitative Kartierung

Über die Legende am linken Rand der Karte können Konzepte, phonetische oder morpholexikalische Typen oder auch  ausgewählt werden. Seit kurzem steht auch eine Suchfunktion zur Verfügung, die sämtliche auswählbare Listeneinträge durchsucht, unabhängig von deren Kategorisierung als „Konzept“, „Morphtyp“ usw. Nach Auswahl eines verfügbaren Elements erscheinen die entsprechenden Symbole auf der Karte.

Neben Sprachdaten können auf der Karte synoptisch auch georeferenzierte Daten der „sprachbezogenen Peripherie“ visualisiert werden. Darunter werden unterschiedlich Kategorien von Daten verstanden, die mit sprachlichen Phänomenen in der einen oder anderen Weise in Wechselwirkung stehen können. Dies können z.B. historische Daten wie etwa Daten zu antiken Besiedlungsstrukturen und Verkehrswegen, entlang derer sich sprachliche Phänomene verbreitet haben könnten, oder auch Daten zur modernen Infrastrukutur wie etwa zur Verbreitung der Internetanschlüsse im Alpenraum sein, die sicherlich Auswirkungen auf sprachliche Veränderungsprozesse haben. Die Daten dieses Sektors sind bislang noch nicht  systematisch gesammelt worden.

Quantifizierende Darstellung

Die online-Karte erlaubt auch eine quantifizierende Abbildung der auf einer Karte dargestellten Inhalte. Im folgenden Beispiel ist zunächst die nach jeweiliger Bedeutung (Konzepten) gruppierte Verbreitung des Morphtyps „Teie(n)“ kartiert:

Qualitative Kartierung des Morphtyps „Teie(n)“

Die hier abgebildete Karte ist mit dem Link https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=xxx&tk=1357 hinterlegt. Die hinter dem Fragezeichen folgenden, rot gesetzten sog. URL-Parameter bewirken, dass die interaktive Onlinekarte mit der gewünschten Vorauswahl „Morpho-lexikalischer Typ Teie(n) (ger.)“ aufgerufen wird. Ein solcher Link kann für Karten mit der Kartierung beliebiger Elemente (Morphtypen, Konzepte, sprachbezogene Peripherie …) abgerufen werden, indem man am oberen rechten Rand der Karte das allgemein bekannte Sharing-Symbol anklickt.

Die quantifizierende Darstellung dieser Daten orientiert sich an Flächen bzw. administrativen Regionen, d.h. es wird die jeweilige Anzahl von Belegen pro Teilfläche des gewählten Bezugssystems durch unterschiedliche Farbgebung markiert.

Im Wesentlichen kann zwischen den folgenden verschiedenen Bezugssystemen gewählt werden:

  • Sprachgebiete
  • Nationalstaaten
  • NUTS3 (= administrative Gliederung auf Niveau der deutschen Landkreise)
  • Gemeindegrenzen

Die quantifizierende Kartierung setzt die Auswahl mindestens einer dieser Kategorien voraus. Sobald ein entsprechender Eintrag in der Kartenlegende auf der linken Seite vorhanden ist, kann man dort auf das von einem Kreis umgebene Q klicken. Anschließend werden die Daten gemäß den Teilflächen der gewählten Kategorie gruppiert und die gruppenbezogene Anzahl durch Farbgebung der Flächen visualisiert.

Quantifizierende Darstellung der Verbreitung des Morphtyps „Teie(n)“ mit georefrenziertem Verlauf der NUTS3-Grenzen

Im Legendeneintrag „Kartographische Darstellung“ lässt sich sodann noch wählen zwischen den Optionen „Physisch“ und „Hexagonal“. Erstere, im vorstehenden Beispiel angewendete, Option verwendet den tatsächlichen, geographisch exakt kartierten Grenzverlauf der entsprechenden Teilflächen. Bei Auswahl der Option „Hexagonal“ wird jede Teilfläche durch Hexagone jeweils identischer Größe repräsentiert. Diese Art der Darstellung soll die Wahrnehmung verzerrende Effekte beseitigen, die sich durch die z.T. stark unterschiedliche Flächengrößen ergeben können.

Quantifizierende Darstellung der Verbreitung des Morphtyps „Teie(n)“ mit hexagonaler Darstellung der Bezugsflächen

Bei dieser Darstellung gehen konzeptbedingt Teile der geographischen Logik verloren. Im Inneren des Wabenmusters hat jede Fläche stets genau sechs Nachbarhexagone. Es liegt auf der Hand, dass es in der Realität nicht wenige Teilflächen geben wird, die entweder mehr oder weniger Nachbarflächen aufweisen.

Am unteren Rand der quantifizierenden Karten kann die Farbgebung der Flächen verändert werden (u.a. die verbreitete Heatmap, die den Verlauf der Regenbogenfarben verwendet). Die bei dem Balken für die Farbauswahl an der rechten oberen Ecke angegebene Zahl gibt die Anzahl der Belege an, die in der Fläche mit der maximalen Anzahl an Belegen versammelt sind, und hilft somit bei der Einschätzung der Anzahlen in den schwächer eingefärbten Flächen.

Die einzelnen Elemente in der Kartenlegende auf der linken Seite können durch Entfernen oder Setzen des kleinen Häkchens in die Berechnung und Visualisierung der Daten auf der Karte einbezogen oder herausgenommen werden. Bei jeder solchen Aktion wird die Kartendarstellung entsprechend aktualisiert.

Lexicon Alpinum

Das Lexicon Alpinum enthält eine alphabetisch sortierte Liste mit Morphtypen, Konzepten und Basistypen, zu denen bislang ein wissenschaftlicher Kommentar verfasst worden ist. Hinter jedem Eintrag ist angegeben, ob es sich um ein Konzept, einen Morph- oder einen Basistyp handelt. Konzepte sind außerdem,  wie auch in der Legende der Onlinekarte, an der Schreibung in Versalien erkennbar. Über den Link „Auf Karte visualisieren“ gelangt man zur Online-Karte, auf der dem Lexikoneintrag zugeordnete Daten dargestellt werden.

Die im Lexicon Alpinum gelisteten Kommentare können auch über die Online-Karte aufgerufen werden. Sofern für einen bestimmten Legendeneintrag auf der Online-Karte ein Kommentar vorhanden ist, erscheint unmittelbar rechts von diesem Eintrag ein kleines i in einem Kreis. Ein Klick auf dieses Symbol öffnet den Kommentartext, der auch im Lexicon Alpinum präsentiert wird.

Kommentar zum Konzept ALMHÜTTE im Lexicon Alpinum und auf der Online-Karte

Crowdsourcing: Dateninkonsistenzen und deren Ausgleich

Dadurch dass die Hauptquellen von VA, nämlich Sprachatlanten und Wörterbücher, bezogen auf den gesamten Alpenraum durchaus unterschiedliche Konzepte und in der Folge auch Bezeichnungen dokumentiert haben, entsteht bei der Sammlung des Gesamtmaterials ein mehrdimensionales Netz mit einer Reihe von Inkonsistenzen. Die Mehrdimensionalität entsteht dabei im Wesentlichen durch die Variablen Georeferenz, Chronoreferenz und Konzept. So ist es z.B. möglich, dass ein bestimmter Sprachatlas zu einem bestimmten Zeitpunkt in einer bestimmten Region das Vokabular für ein bestimmtes Konzept erhoben hat. Für andere Regionen fehlen hingegen entsprechende Erhebungen entweder vollständig oder aber wurden zu einem erheblich früheren oder späteren Zeitpunkt durchgeführt. Um Inkonsistenzen dieser Art wenigstens im Hinblick auf die Konzept- und geographische Dimension auszugleichen, hat VA ein Crowdsourcing-Tool entwickelt, mit dem über das Internet gezielt Sprachmaterial gesammelt wird. Auch dieses Tool ist über das Frontend von VA_WEB erreichbar (Reiter „MITMACHEN!“).

Konkret werden Internetuser dazu aufgefordert, Bezeichnungen für bestimmte Konzepte, die nach ihrer Ansicht an einem bestimmten Ort üblich sind, in ein online-Formular einzutragen. Das Tool hebt dabei bestimmte Konzepte, die aus Sicht von VerbaAlpina von besonderem Interesse sind, hervor. Grundsätzlich sind die Internetuser jedoch frei, auch Bezeichnungen für beliebige Konzepte ihrer Wahl einzutragen.

Die Validierung der Eintragungen erfolgt nach dem Prinzip der unabhängigen Quellen: Wenn zwei oder mehr Internet-Informanten für einen Ort die selbe Bezeichnung für ein bestimmtes Konzept eingegeben haben, gilt der Eintrag als validiert.

Ein großes Problem dieser Form der Online-Erhebung ist die Resonanz. Jeweils nach der Bewerbung des Crowdsourcing-Tools auf Veranstaltungen oder in den Medien steigt die Zahl der Eintragungen ins System an, ebbt jedoch jedesmal schnell wieder ab.

Jenseits von VA_DB und VA_WEB: Der weitere Horizont

Institutionelle Vernetzung

VerbaAlpina versteht sich als Teil eines Daten- und institutionellen Verbundes. Derzeit (Mai 2018) haben insgesamt über 40 Institutionen und Einzelpersonen mit VerbaAlpina eine Kooperationsvereinbarung geschlossen. Die einzelnen Partner sind hinsichtlich ihrer wissenschaftlichen Ausrichtung und ihren spezifischen Interessen überaus heterogen. Viele der Partner verfügen wie VerbaAlpina über Sprachmaterial, das in aller Regel hinsichtlich Strukturierung und Zeichenkodierung sehr individuell gestaltet ist.

Wesentlicher Bestandteil der VA-Kooperationsvereinbarungen ist der wechselseitige Austausch von Daten zum gegenseitigen Nutzen. Grundsätzlich kommen in diesem Zusammenhang zwei Szenarien ins Spiel, die den effektiven Datenaustausch überhaupt erst ermöglichen:

Entweder, man verständigt sich auf Standards (gleichermaßen für Datenstrukturen wie für Zeichenkodierung), die von allen Beteiligten angewandt werden, oder man folgt einem Schnittstellenkonzept, das es den Projektpartnern erlaubt, ihre individuellen Lösungen beizubehalten. Letztere Option ist die von VerbaAlpina favorisierte Lösung. Bei jedem Datentransfer von der oder in die Datenbank von VerbaAlpina (VA_DB) muss eine eigene Prozedur entwickelt werden, die die Daten der Quelle an die Strukturen und Kodierungen der Zielinstanz anpasst bzw. sie in diese überführt.

Nach außen hin verfügt VerbaAlpina neben der Webschnittstelle mit der Kartenfunktion über eine definierte Datenbankschnittstelle. Diese ist nur für die Kooperationspartner von VerbaAlpina zugänglich. Sämtliches georeferenziertes Sprachmaterial sowie die, ebenfalls georeferenzierten Daten der sprachlichen Peripherie können in Datenbanktabellen konsultiert und von dort auch heruntergeladen werden. Der Name der Datenbankschnittstelle für die Sprachdaten lautet vap_ling_de, der für die Daten der sprachlichen Peripheri vap_geo_de.

select Quelle_Beleg,beleg,concat(Typ,' (',art_typ,')') as typ,Name_Konzept,Gemeinde,Breitengrad,Laengengrad from vap_ling_de a where name_konzept is not null and beleg != '' order by rand()

Schnittstelle vap_ling_de (Ausschnitt)

select Kategorie,Name,Beschreibung,st_astext(Geodaten) from vap_geo_de a order by rand() limit 20

Schnittstelle vap_geo_de (Ausschnitt)

Für jede der beiden Tabellen existieren weitere Versionen mit Spaltennamen in den im Alpenraum gesprochenen Nationalsprachen (vap_ling_fr, vap_ling_it, vap_geo_fr etc.). Die Daten der beiden Schnittstellen sind über die Georeferenzierung aufeinander beziehbar.

VerbaAlpina als vollständig „digitales“ Projekt

VerbaAlpina möchte den Paradigmenwechsel, der sich durch Digitalisierung und Vernetzung ergeben hat, so konsequent wie möglich umsetzen. Dazu gehört im Wesentlichen, dass das Projekt in all seinen Teilen ausschließlich elektronisch realisiert wird und im Internet zugänglich ist. Die Vorteile bestehen dabei in den Möglichkeiten der erweiterten algorithmischen und statistischen Analyse des Datenbestands, der Beschleunigung aller Prozesse, der weitgehenden Unabhängigkeit von kommerziellen Institutionen wie z.B. Wissenschaftsverlagen sowie der ständigen Verfügbarkeit aller Daten und Funktionen unabhängig von Ort und Zeit.

Den genannten Vorteilen stehen auf der anderen Seite Probleme oder besser: Herausforderungen gegenüber. Diese bestehen zunächst in der „Flüchtigkeit“ des elektronischen Mediums, eine Eigenschaft, die eine Reihe von Konsequenzen nach sich zieht. Da wäre zunächst das Problem der Zitierbarkeit elektronischer Ressourcen. Einmal generierte Daten, seien es primäre Forschungsdaten wie etwa das von VerbaAlpina in VA_DB gesammelte Datenmaterial, seien es die analytischen Texte etwa im Lexicon Alpinum, sie alle müssen genauso zuverlässig zitier- und in der Folge vor allem auffindbar sein, wie das ehedem beim Zitat einer Passage in einem gedruckten Buch der Fall gewesen war. Um dieses Ziel zu erreichen, bedient sich VerbaAlpina des Konzepts der Versionierung: In regelmäßigen Abständen (seit 2018 jeweils Ende Juni und Ende Dezember) wird der komplette Datenbestand von VerbaAlpina, also alle Elemente in den Modulen VA_DB und VA_WEB gleichsam eingefroren. Sämtliche Elemente einer eingefrorenen Version können dann über die bekannten URLs direkt angesprochen werden, wobei die jeweilige Nummer der entsprechenden VA-Version als Parameter „db=[Versionsnummer]“ in die URL eingebunden ist. Zwei Beispiele:

Zitat eines Kommentars im Lexicon Alpinum:

Krefeld, T.: s.v. “ALM”, in: VA-de 17/2, Lexicon alpinum, https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=2374&db=172#C216

Zitat einer online-Kartierung:

https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=172&tk=1373

Die unterschiedlichen Zitierversionen können in VA_WEB durch die Navigationselemente am rechten oberen Fensterrand ausgewählt werden:

Auswahl einer VA-Version in VA_WEB. Die jeweils jüngste Zitierversion ist grün unterlegt.

Zitierfähig ist im Grunde auch die jeweilige Arbeitsversion von VerbaAlpina (db=xxx). Allerdings kann in diesem Fall nicht garantiert werden, dass die Inhalte, auf die referiert wird, stabil sind. Die ständige Erweiterung des Datenbestands sowie die Arbeit an Texten kann dazu führen, dass bei Aufruf einer entsprechenden URL nicht die Inhalte angezeigt werden, auf die es bei Anlage des Zitats angekommen war.

Zwar ist Dergleichen nicht geplant, jedoch kann es nicht ausgeschlossen werden, dass in Zukunft die sog.Domain“ der VerbaAlpina-URLs geändert werden muss. Mit Domain ist der Teil einer URL gemeint, der sich vor den URL-Parametern befindet:

https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=2374&db=xxx

Damit die Ressourcen von VerbaAlpina auch denn noch auffindbar sein werden, wurden für die VerbaAlpina-Domain sowohl ein sogenannter Digital Object Identifier (DOI) sowie ein sogenannter Uniform Resource Name (URN) registriert. Bei diesen beiden Systemen handelt es sich im Grunde um nichts anderes als Listen, die auf der einen Seite einen persistenten Identifikator definieren und auf der anderen Seite die diesem Identifikator zugeordnete Domain. Der Identifikator bleibt grundsätzlich unter allen Umständen unverändert, die Domain hingegen ist variabel und kann ausgetauscht werden, wenn eine Ressource unter einer anderen Domain erreichbar sein sollte. DOI und URN von VA_WEB lauten:

persistenter Identifikator Domain
http://dx.doi.org/10.5282/verba-alpina www.verba-alpina.gwi.uni-muenchen.de
http://nbn-resolving.de/urn:nbn:de:bvb:19-verba-alpina-8 www.verba-alpina.gwi.uni-muenchen.de

Eine andere wichtige Frage ist, welche Institutionen für die rein physische Bewahrung der Daten und deren Auffindbarkeit zuständig sein sollen. Thomas Krefeld und Stephan Lücke haben zu diesen Fragen Vorstellungen entwickelt, die durch die folgende Grafik illustriert werden:

Zuständigkeiten und Regelungen im Kontext der Bewahrung digitaler Ressourcen (aus: Thomas Krefeld & Stephan Lücke (2017): Nachhaltigkeit – aus der Sicht virtueller Forschungsumgebungen. Korpus im Text. Version 7 (10.03.2017, 12:27). url: http://www.kit.gwi.uni-muenchen.de/?p=5773&v=7).

Die Frage nach der Sicherung und Verfügbarkeit von digitalen Ressourcen im Umfeld der Wissenschaft ist hochaktuell und beschäftigt derzeit auch die wissenschaftspolitische Ebene wie z.B. den „Rat für InformationsInfrastrukturen“ (rfii), der das Ziel der Schaffung einer Nationalen Forschungsdateninfrastruktur (NFDI) verfolgt, oder das Bayerische Kultusministerium. Momentan ist VerbaAlpina eingebunden in zwei Projekte, die Lösungsansätze in diesem Umfeld evaluieren und entwickeln sollen. Bei dem einen handelt es sich um das von der DFG geförderte Projekt GeRDI (Generic Research Data Infrastructure). Ein Teil dieses Projekts ist am Leibniz-Rechenzentrum (LRZ) angesiedelt. Ziel von GeRDI ist, einen zentralen fach- und disziplinübergreifenden Metadatenkatalog aufzubauen, der in Zukunft das zuverlässige Auffinden digitaler Ressourcen und Informationen ermöglichen soll. Aktuell laufen Bemühungen, wenigstens Teile des VA-Datenbestands aus VA_DB exemplarisch in ein Metadatenschema zu überführen, das dann in den zentralen GeRDI-Index integriert werden soll.

Im selben Umfeld operiert seit Ende letzten Jahres das von der Bayerischen Staatsregierung geförderte Projekt „Forschungsdatenmanagement“ (FDM; https://www.fdm-bayern.org/), dessen Ziel es ist, zuverlässige Lösungen im Hinblick auf die Sicherung und langfristige Verfügbarkeit von Forschungsdaten zu entwickeln.

Allgemein besteht im Hinblick auf den nachhaltigen Umgang mit digitalen Ressourcen noch keine Klarheit. So herrscht noch nicht einmal Einigkeit darüber, ob grundsätzlich *alle* Daten eines digitalen online-Projekts dauerhaft bewahrt werden sollen. Dies zeigt der gerade erwähnt Begriff „Forschungsdaten“. Traditionell werden darunter z.B. Messdatenreihen von Klimaforschern verstanden, die sich anscheinend klar von den darauf aufbauenden Analysen und Erkenntnissen trennen lassen. VerbaAlpina vertritt den Standpunkt, dass eine solche klare Trennung weder möglich, noch sinnvoll noch angesichts der technischen Möglichkeiten nötig ist und strebt an, *sämtliche* im Projekt gesammelten und erzeugten Daten en bloc zu bewahren — z.B. auch die Protokolle der regelmäßigen Projektbesprechungen, die Einblick in den Fortgang der Projektarbeit geben und getroffene Entscheidungen transparent machen können. Neben dieser Frage, was man unter Forschungsdaten zu verstehen habe, ist auch noch nicht verbindlich geklärt, ob und wie Daten verbindlich strukturiert, dokumentiert und Metadaten versehen werden sollen und welche Institutionen mit welchen Aufgaben betraut werden sollen.

VerbaAlpina begegnet diesen Unsicherheiten durch die Suche nach Best-Practice-Lösungen und mit einem Konzept maximaler Flexibilität. Die Entwicklungen auf diesem Sektor werden aufmerksam verfolgt und die Strukturen und Prozeduren von VerbaAlpina darauf ausgerichtet. Unter den gegebenen Umständen erscheint es die beste Lösung, sich an möglichst vielen der z.T. parallel verlaufenden Anstrengungen zu beteiligen und gleichzeitig die VerbaAlpina-Ressourcen möglichst redundant in mehrere Systeme zu übertragen, die sich der Nachhaltigkeit und Nachnutzbarkeit von digitalen Inhalten verschrieben haben. Neben GeRDI wären in diesem Zusammenhang noch die UB der LMU zu nennen, bei der bereits eine ältere Version von VerbaAlpina in einem sog. Docker-System läuft. Dabei handelt es sich um eine gekapselte Serverinstallation, die garantieren soll, dass vor allem die in VA_WEB realisierten Funktionalitäten auch dann noch laufen, wenn es in Zukunft Serversoftware geben wird, mit der der von VA entwickelte Programmcode nicht mehr lauffähig ist. Zu erwähnen wäre schließlich noch das CLARIN-D-Repositorium. VerbaAlpina hat bereits vor längerer Zeit Kontakt mit den dortigen Verantwortlichen aufgenommen, die Realisierung der Übertragung von VA-Daten dorthin steht bislang aber noch aus. Sämtlicher von VA erzeugter Programmcode ist auf Github (https://github.com/VerbaAlpina/Verba-Alpina-Plugin) frei zugänglich und nachnutzbar.

Abschließend sei noch der Aspekt der Lizensierung erwähnt. VerbaAlpina ist der Meinung, dass Forschungsdaten im weitesten Sinne grundsätzlich frei zugänglich gemacht werden müssen. Entsprechend werden die Projektdaten von VA, soweit möglich, unter der CC-BY-SA 3.0 DE Lizenz zur Verfügung gestellt. VerbaAlpina fühlt sich den FAIR-Prinzipien (https://www.force11.org/group/fairgroup/fairprinciples) verpflichtet: Findable – Accessible – Interoperable und Re-usable sein!

Anhang

Eckdaten der technischen Realisierung

Modularer Aufbau: Datenbank (VA_DB) – Publikationsportal (VA_WEB) – Mediathek (VA_MT)

  • VA_DB: MySQL-Cluster
  • VA_WEB: WordPress-Installation mit Anbindung an MySQL-Datenbank
  • WordPress: PHP-Framework, weit verbreitet, standardisiert;
  • Visualisierung der Projektdaten auf einer Google-Map
  • Anpassung der WordPress-Basisinstallation durch projektspezifische Erweiterungen, möglichst in Form von sog. Plugins.
  • Plugin-Konzept ⇒ Synergieeffekte durch Weiterverwendung in anderen Projekten

Beispiel: Strukturierte Erfassung von Daten aus einem Sprachatlas

VALTS-Karte IV 73. Orange Markierung: Verwendung der Bezeichnung Sennküche für den SENNEREIRAUM INNERHALB DER ALPHÜTTE in der Ortschaft Bichlbach (T06). Grüne Markierung: Verwendung der Bezeichnung Taje für die ALPHÜTTE in der Ortschaft Sankt Leonhard (T34).

Die Abbildung präsentiert einen Ausschnitt aus dem VALTS|Vorarlberger Sprachatlas-Karte IV 73 („Die Sennhütte bzw. der Sennereiraum auf der Alpe, Lautung und Bedeutung von Tieje, Taje f.“).

Die Karte ist ein Repräsentant einer sog. Punktsymbolkarte, die die Verbreitung der sprachlichen Merkmale hauptsächlich durch unterschiedliche Symbole visualisiert, die jeweils bestimmten definierten Typen zugeordnet sind. Wesentlich ist demnach die vorangegangene Typisierung des gesammelten Sprachmaterials. Diese Art von Sprachkarte steht einer anderen Art gegenüber, auf der jeweils die konkreten Einzelbelege in häufig phonetischer Transkription direkt neben die korrespondierenden Erhebungspunkte geschrieben werden, ohne dass die Einzelbelege in irgendeiner Weise als Vertreter bestimmter Typen markiert werden würden.

Die Eintragungen auf dieser Karte sind sehr heterogen. So sind zunächst mehrere Konzepte auf einer Karte versammelt:

  • SENNHÜTTE
  • SENNEREIRAUM

Aus der Legende geht hervor, dass auf der Karte darüberhinaus noch weitere Konzepte dokumentiert sind:

  • SENNEREIRAUM INNERHALB DER ALPHÜTTE,
  • PRIMITIVE SENNHÜTTE AUF MAIENSÄßEN,
  • SENNKÜCHE,
  • KÄSEKELLER,
  • ALPHÜTTE

Die meisten dieser Konzepte sind nicht flächendeckend in allen kartierten Erhebungsorten abgefragt und dokumentiert worden. Insofern besteht also eine Inkonsistenz in der Fläche.

VerbaAlpina unterscheidet im Hinblick auf die Sprachdaten mehrere Abstrahierungsstufen. An der Basis befindet sich jeweils der individuelle Einzelbeleg, der von einem Gewährsmann/Informanten gleichsam zu Protokoll gegeben wurde. Diese Einzelbelege können sodann in verschiedener Weise typisiert werden. So können zum einen mehrere Einzelbelege, die bestimmte phonetische Gemeinsamkeiten aufweisen, zu phonetischen Typen zusammengefasst werden. Zum anderen können unterschiedliche Einzelbelege Repräsentanten ein und desselben morpholexikalischen Typs sein, unabhängig von phonetischen Eigenheiten.

Die (fiktiven) Einzelbelege Kaas und Kees würden z.B. aufgrund der differierenden Vokalrealisierung zwei unterschiedlichen phonetischen Typen zuzuordnen sein, wären jedoch beide auf denselben morpholexikalischen Typ Käse zu beziehen.

Auf der VALTS-Karte finden sich Vertreter sowohl von Einzelbelegen wie auch von phonetischen und morpholexikalischen Typen. Ein Vertreter eines Einzelbelegs wäre z. B. der Eintrag toːə in der Kartenlegende zum Erhebungspunkt T34, der als Vertreter des phonetischen Typs Taje aufgefasst wird. Diesem phonetischen Typ Taje wird auf der Karte der phonetische Typ Tieie gegenübergestellt, wobei das unterscheidende Merkmal offenkundig der hinter dem anlautenden T eingeschobene i-Laut ist. Grundsätzlich wäre die Definition weiterer phonetischer Typen denkbar, die sich an anderen lautlichen Merkmalen orientieren würden. So könnte man z.B. auch Belegvarianten, die dem Muster Toje folgen, oder solche, die anstelle des o ein e aufweisen, als weitere phonetische Typen auffassen.

Neben phonetischen Typen begegnen auf der VALTS-Karte auch morpholexikalische Typen. Als solche wären z.B. die unter der Rubrik „Deutsche Bezeichnungen“ aufgelisteten Bezeichnungen (Senn-, Alp– oder Berg-)Hütte oder Sennhaus aufzufassen. Die Karte gibt keinen Aufschluss über die dahinterstehenden Einzelbelege und deren individuelle lautliche Varianten. Unsicherheit besteht auch im Hinblick auf die Frage, ob ein Informant nun Sennhütte, Alphütte, Berghütte oder einfach nur Hütte verwendet hat. Die strukturierte Erfassung der Daten zwingt jedoch jeweils zu klaren Entscheidungen, die daher oftmals nicht leichtfallen. Strenggenommen ist es im vorliegenden Fall gar nicht möglich, eine Entscheidung zu treffen. Lediglich die Verwendung des Wortes Hütte, möglicherweise als Bestandteil eines Kompositums, ist gesichert.

Bei der strukturierten Erfassung der Daten muss der Status jeder Eintragung identifiziert und entsprechend notiert werden. Eine automatisierte Erfassung der Daten ist unmöglich, manuelle Erfassung durch Personen mit sprachwissenschaftlichem Fachwissen zwingend erforderlich.

Das oben präsentierte Beispiel aus dem Vorarlberger Sprachatlas würde sich skizzenhaft in folgender Weise im relationalen Datenformat abbilden lassen:

Metadatenkategorien (Variable):

  • Konzept
  • Bezeichnung_morpholexikalischer Typ
  • phonetischer Typ
  • Einzelbeleg
  • Gemeindename
  • Gemeindenummer
Konzept Bezeichnung_
morpholexikalischer Typ
Bez_phontischer Typ Einzelbeleg Gemeindename Gemeindenummer
SENNEREIRAUM INNERHALB DER ALPHÜTTE Sennküche Bichlbach T6
ALPHÜTTE Teie(n) Taje toːə St. Leonhard T34

Grundlage für die Transkription ist eine von VA erstellte sog. Codepage, in der die Regeln für die Abbildung von Sonderzeichen durch ASCII-Zeichen festgelegt sind.

Ausschnitt aus den Transkriptionsregeln von VerbaAlpina für die Erfassung von Daten aus Sprachatlanten

 

VerbaAlpina – un progetto di geolinguistica plurilingue (Zitieren)

Thomas Krefeld
(3589 Wörter)

Thomas Krefeld

Questo contributo è stato concepito e scritto per il
Convegno internazionale di studio,  Sappada / Plodn (UD), 3-7 luglio 2018.
Ringrazio Alessia Brancatelli  per la revisione del mio italiano.

Linguistica alpina: continuità dialettale e strati storici

Tre famiglie linguistiche in contatto

Nella zona alpina, le tre grandi famiglie linguistiche europee – il romanFzo, il germanico e lo slavo – sono a stretto contatto tra loro (cf. la carta).1 Sono costituite ognuna da numerosi idiomi locali in continuità spaziale. Tuttavia i confini tra queste macroregioni non sono ermetici; essi sono attraversati da numerose isoglosse lessicali che segnano aree di diffusione plurilingui. È chiaro che una linguistica di stampo nazionale (ad es. ‚linguistica italiana‘) o filologico in senso della tradizione tedescofona (ad es. ‚Romanische Philologie‘) non si interessino di queste realtà. Il lessico di cui si tratta non è solo italiano, né romanzo, ma regionale, cioè proprio alpino in senso di VerbaAlpina. Il nome del progetto, che signifca ‘voci alpine’ in latino, è stato scelto perché è probabilmente maggiormente comprensibile per parlanti di diverse lingue della zona di riferimento, rispetto ad uno formulato in una di queste lingue particolari.

L’espressione VerbaAlpina accenna volutamente alla categoria delle cosiddette ‚Alpenwörter’ ossia ‘voci delle Alpi’ in tedesco2. Questo concetto è utile per una ricerca sul plurilinguismo in quanto identifica delle unità lessicali ibride che contraddistinguono in sincronia non solo una particolare lingua, ma uno spazio culturale indipendentemente dalle lingue ivi parlate. Per rendere al meglio la categoria operazionale, si esige tuttavia una specificazione nella cornice del progetto. Dal punto di vista sincronico vengono dunque considerate ‘alpine’ le forme lessicali che hanno, nei dati disponibili a VerbaAlpina, ovvie corrispondenze in più di una sola delle tre famiglie linguistiche tradizionalmente parlate nelle Alpi. Risultano quindi quattro gruppi ibridi:

voci alpine: tipologia sincronica dell’ibridismo lessicale alpino
romanzo germanico slavo
attestazioni in x x x ‘alpine’ in senso stretto
x x ‘alpine’ in senso ampio
x x
x x

Stratigrafia

La cartografia delle attestazioni e dei tipi corrispondenti delinea la loro distribuzione areale, mentre il tipo di base identifica una famiglia lessicale, a volte anche di natura plurilingue. Si apre così una prospettiva storica da cui deriva, oltre all’ibridismo sincronico, un criterio diacronico per l’individuazione delle voci alpine: quello dell’origine esogena. Per definizione, le voci endogene e non ibride non possono mai essere definite come ‚alpine‘; le voci non ibride in sincronia invece sì, a condizione che abbiano origine in un’altra famiglia linguistica, cioè quelle esclusivamente romanze di origine non latino-romanza, quelle esclusivamente germaniche di origine non germanica e quelle slave di origine non slava. L’origine esogena però non dà alcun indizio su quali siano le vie concrete percorse dai prestiti. Questi percorsi vanno, dunque, ricostruiti e iscritti nella stratigrafia linguistica dell’area di distribuzione. Per le voci alpine risultano le costellazioni elencate sotto:

voci alpine: tipologia diacronica dei rapporti stratigrafici
origine tipo di base rapporto stratigrafico famiglia ling. attuale
prelatino – sostrato – → romanzo
romanzo – sostrato, adstrato – → germanico
→ slavo
germanico – superstrato, adstrato – → romanzo
→ slavo
slavo – adstrato – → romanzo
– sostrato, adstrato – → germanico

 

 

 

 

 

 

 

 

Se aggiungiamo il parametro della successione storica, risulta grosso modo lo schema seguente:

AREALI ALPINI
ATTUALI
STRATO romanzo STRATO germanico (ted.) STRATO slavo (slov.)
SUPERSTRATO ted. austr.
zellenfülltextzellenfü SOSTRATO 
SUPERSTRATO ger. SOSTRATO
AREALE ALPINO
TARD. ANT.
 latino-romanzo
SOSTRATI prelatini
rosso=prelatino, grigio=latino-romanzo, blu=germanico, giallo=slavo

Si noti l’importanza fondamentale dello strato latino-romanzo:

  • esso costituisce lo strato di referenza per tutta la zona alpina, la quale faceva parte dell’impero romano nella sua totalità, sebbene con notevoli differenze rispetto al grado di romanizzazione locale;
  • lo strato latino-romanzo ha lo spessore storico più importante;
  • le tracce degli strati prelatini passano per quello latino-romanzo e sono quindi  fonologicamente e morfologicamente più o meno adattati; contatti diretti tra gli strati postlatini e prelatini non sono assolutamente esclusi, ma molto poco probabili (si veda, comunque, Hubschmied 1936 per il celtico).

Un nome alla ricerca

Coesistono diverse denominazioni per la ricerca sulla realtà linguistica locale, ovvero ‚dialettologia‘, ‚geografia linguistica‘ e ‚geolinguistica‘. Esse però non sono totalmente sinonimi né ugualmente adatte alla descrizione di aree plurilingui:

  • ’Geografia linguistica’ pone l’accento sulla geografia e non sulla lingua.
  • ‘Dialettologia‘ focalizza l’attenzione sullo stato sociologico che viene indagato della lingua, ovvero quello di essere ‘dialetto’ non autonomo rispetto ad una lingua; il termine non è quindi idoneo per una ricerca che risalga anche ad un periodo anteriore alla formazione dello standard e del diasistema attuale.
  • Resta la denominazione più neutra di ‘geolinguistica’ che si applica anche bene a zone come quella alpina3, che sono da lungo tempo plurilingui e nei territori delle varie lingue anche particolarmente frammentate. Si tratta quindi di una geolinguistica plurilingue che non focalizza l’attenzione sulle singole varietà dell’intero mosaico, bensì sulle varianti che queste hanno in comune.

L’idea di VerbaAlpina è quella di creare un’infrastruttura panoramica del lessico alpino, sebbene molto selettiva perché ridotta a un settore classificato come  ‘alpino’ per motivi etnolinguistici. Essa dovrebbe dare la possibilità, da un lato, di raccogliere, strutturare e analizzare i dati linguistici e dall’altro di poterli consultare in un modo facilmente accessibile.

Documentazione

Accesso onomasiologico: dalle cose alle parole

Per la consultazione del materiale documentato è stato implementato un ambiente di ricerca virtuale che propone due direzioni d’accesso, di cui una onomasiologica che si impone per l’impostazione etnolinguistica del progetto. Partendo dalle ‘cose’ è quindi possibile selezionare le unità della realtà extra-linguistica chiamate concetti (notati sempre in maiuscolo).

I concetti sono fondamentali per ogni documentazione plurilingue, perché forniscono la referenza comune delle varie versioni linguistiche; tuttavia non è sempre facile fissarli e pare necessario usare strategie diverse per farlo:

  • Per alcuni segmenti della realtá esistono nomenclature universalmente riconosciute come, ad esempio, la classificazione binomia stabilita da Carlo Linneo in lingua latina per la biologia.
  • Quando possibile, i concetti di VerbaAlpina sono anche visualizzati accompagnati da foto che appaiono quando vi si passa sopra il cursore del mouse. La foto seguente mostra un’immagine del cosiddetto torno, una sorta di grua che permette di girare la caldaia per fare il formaggio sul fuoco o via del fuoco. Ovviamente, l’idea dell’illustrazione dei concetti non è un’opzione universale, sia perché foto o immagini non sono sempre disponibili, sia perché il grado di astrazione la esclude.
  • Nonostante l’esistenza di eventuali termini di nomenclatura o foto, sono irrinunciabili le definizioni verbali formulate nella variatà standard di una delle lingue di navigazione e poi tradotte nelle altre. La definizione ha il grande vantaggio di essere direttamente comprensibile per l’utente; accentua però il rischio di un malinteso: l’utente potrebbe pensare che essa si focalizzi su una designazione particolare della lingua. Per prevenire questo equivoco è consigliato formulare i concetti in modo tecnico, ad esempio dicendo RECIPIENTE PER FARE IL FORMAGGIO anziché CALDAIA; i concetti sono inoltre trascritti in maiuscolo, e non in corsivo come le designazioni.
  • Con il plurilinguismo extraordinario di Wikipedia è emersa una base di conoscenza chiamata [Wikidata che riunisce identificatori per i contenuti trattati in varie lingue. Ad esempio, il concetto di BURRO, cui sono dedicati articoli Wikipedia in 132 lingue (e dialetti), porta l’identificatore  Q34172. Considerando l’enorme diffusione di Wikipedia, è lecito adottare Wikidata come standard onomasiologico. Naturalmente mancano numerosi identificatori per concetti specifici; esiste ad esempio un identificatore per la ZANGOLA, ma non per le sue diverse tipologie (da girare, da stampare ecc.; cf. AIS carta 1206). I progetti linguistici con una componente onomasiologica che si avvalgono delle tecnologie web dovrebbero, anzi, devono quindi contribuire ad arricchire Wikidata con nuovi identificatori.

Accesso semasiologico: dalle parole alle cose

In direzione opposta è possibile rintracciare le designazioni nella loro distribuzione areale e conoscere i concetti a cui si riferiscono. Ad esempio le forme locali in correspondenza con ita. scotta nell’ambito della produzione di formaggio significano sia la massa coagulata (FORMAGGIO, RICOTTA), sia il liquido (SIERO).

Tipizzazione

Per garantire una presentazione sintetica della variazione linguistica spesso molto dettagliata vengono simboleggiati tipi morfo-lessicali, cioè specifici gruppi di attestazioni definiti da criteri morfologici. È però sempre possibile risalire alle singole attestazioni cliccando sul simbolo che evidenzia l’esistenza locale del tipo. Ecco un esempio  che mostra un’attestazione locale del tipo morfo-lessicale fra. beurre/ita. burro.            

Molto utile per l’analisi del plurilinguismo e del contatto linguistico in particolare è la categorie storica chiamata ‚tipo di base‘. Contrariamente ai tipi morfo-lessicali, un tipo di base può comprendere non solo varianti di una stessa famiglia linguistica, bensì anche eventuali prestiti nelle altre famiglie, come viene schematizzo nella figura seguente:

Schema della tipizzazione

Di seguito vengono presentate  alcune costellazioni stratigrafiche esemplari.

1° Esempio: stratigrafia del tipo di base butyru(m)

Il tipo fra. beurre/ita. burro appena citato deriva da un tipo di base greco-latino, cioè da butyru(m) (cf. la cartina per la distribuzione  areale e il commento lessicologico).

Lo stesso tipo di base è anche rappresentato da molte attestazione slave e germaniche; in tedesco, le varianti corrispondono a due tipi morfo-lessicali, uno femminile, come lo standard  ted. ) e l’altro maschile dei dialetti meridionali, ted. der Butter. L’esempio mostra anche la necessità di tener conto di certi tipi fonetici, perché le attestazioni romanze continuano due varianti fonetiche già latine alla base:

  1. una forma secondaria bútyru(m) con accento iniziale; essa spiega anche le forme standard fra. beurre, ita. burro;
  2. la forma parossitona butýru(m) dalla quale deriva, tra molte altre, la variante ita. butirro.

A livello del tedesco spiccano forme fonetiche con iniziale sonora [b-] da un lato e con iniziale sorda [p-] dall’altro.

Ne risulta la seguente tipologia lessicologica:

 famiglia linguistica attestazione  tipo fon.  tipo morfo-less.  tipo di base
rom. bˈyːrĭ  

senza occl. dentale beurre/burro

 

sost. m. butyru(m)
bˈir
bˈœːrɔ
[altre 342]
bʏtˈeːr
con occl. dentale  
butirro
butˈiro
botˈer
[altre 373]
ger. p͉utr p- iniziale      sost. m. der Butter 
p͉uːt͉ɐ
 [altre 205]
p͉uːt͉ɐ sost. f. die Butter 
[altre 5]
sla. pútər puter sost. m.
 putr
[altre 17]

La iniziale sorda [p-] è assente in zona romanza e caratterizza sia i dialetti tedeschi meridionali sia lo sloveno, ma solo in tedesco corrisponde ad una regola della fonetica storica. Ne possiamo concludere che il tipo sloveno è un prestito del tedesco austriaco carta. Il tipo di base butyru(m) si presenta dunque come una costellazione stratigrafica abbastanza complessa con riflessi romanzi nello strato di origine, riflessi sostratali in ted. e superstratali in sloveno:

AREALI ALP. STRATO romanzo STRATO ger. (ted.) STRATO slavo (slov.)
ATTUALI beurre/burro (m.) butirro (m.) die Butter (f.)
puter
der Butter/Puta (m.) SUPERSTRATO TED. AUSTR. ↑
↑ SOSTRATO
var. bútyru(m) var. butȳru(m)
TARD. ANT.  latino-romanzo butyrum
grigio=latino-romanzo, blu=germanico, giallo=slavo

2° Esempio: stratigrafia del tipo di base excŏcta

Il processo fondamentale nella caseificazione è la coagulazione del latte che permette di separare le componenti liquide da quelle solide. Per fare coagulare il latte è necessario riscaldarlo e aggiungervi il caglio: sia la massa del formaggio che il siero sono dunque il prodotto di una ‚cottura‘ e la designazione del tipo scotta (< lat. excŏcta) è perfettamente motivata per entrambi. Questa ambiguità metonimica si rispecchia ampiamente nei dati raccolti per VerbaAlpina come illustrato dalla seguente carta. Si tratta allo stesso tempo di una voce alpina prototipica: il tipo è rappresentato nelle tre famiglie linguistiche e risale in germanico e slavo, a quanto pare, direttamente al sostrato latino-romanzo. Il tipo sloveno skuta continua chiaramente il nesso consonantico iniziale [sk-], passato a [∫k-] nel friulano adiacente.

AREALI ALP. STRATO romanzo STRATO ger. (ted.) STRATO slavo (slov.)
ATTUALI scotta die Schotten skuta
↑      SOSTRATO     ↑     
TARD. ANT.  latino-romanzo excŏcta
grigio=latino-romanzo, blu=germanico, giallo=slavo

3° Esempio: stratigrafia dei tip di base camera Zimbar

Coesistono in tedesco e in sloveno due tipi morfo-lessicali oggi in gran parte sinonimi, cioè ted. ZimmerKammer 4slv. cimerkamra con il significato generico di ’stanza‘; essi appaiono  ad esempio sulla cartina SOFFITTA. Mentre il tipo Zimmer, antico tedesco meridionale Zimbar, è di’origine germanica5, l’altro risale chiaramente al lat. camera che era già un prestito al greco6. I riflessi tedeschi e anche sloveni sembrano essere prestiti al sostrato latino-romanzo; rispetto allo sloveno sono le  forme palatalizzate che appoggiano l’origine almeno in parte sostratica del tipo, invece del loro trasferimento indiretto dovuto al superstrato e/o adstrato tedesco. Nonostante la loro sinonimia nelle varietà recenti rappresentano due tradizioni edilizie alternative, in parte anche complementari, cioè su base di legno nel caso di Zimbar  e su base di pietra/mattone l’altra. La loro distribuzione geolinguistica riflette dunque l’espansione dell’edilizia in pietra sin dai tempi romani e, d’altra parte, la conservazione dell’edilizia in legno nella zona alpina, dove entrambi i materiali edili sono facilmente disponibli.

E si noti che anche un altro tipo di base germanico dello stesso campo onomasiologico è stato trasferito allo sloveno, antico tedesco meridionale thilla, ted. Diele ‚asse per fare pavimenti; pavimento di legno‘. Esattamente come il tipo di base Zimbar non pare essere trasferito al romanzo (cfcarta). Risulta quindi la seguente costellazione stratigrafica:

AREALI ALP. STRATO romanzo STRATO ger. (ted.)
STRATO slavo (slov.)
ATTUALI camera Kammer Diele , Zimmer→ → dilje, cimr kamra
SOSTRATO ↑   
SOSTRATO ↑
TARD. ANT.  latino-romanzo camera
grigio=latino-romanzo, blu=germanico, giallo=slavo

4° esempio: stratigrafia del tipo di base caseus

A prima vista, questo tipo potrebbe apparire come poco vistoso perché corrispondente alla variante standard, cioè a ted. Käse, designazione generica di qualsisiasi prodotto caseoso; la parola è bene attestata in ted. meridionale antico (cf. kâsi). In realtà, il tipo di origine latina si rivela essere molto particolare perché designa il prodotto quasi emblematico della vita alpina ad alta quota. Nella zona germanofona coesistono pochissimi geosinonimi, ma stranamente caseus non si è conservato nello strato romanzo attuale, come mostra la carta. Sono invece documentati parecchi sinonimi (vd. carta), in parte anche ben diffusi come tomaformaggio. Sembra tuttavia che il tipo di base esistesse già prima, come suggerisce l’esistenza di parecchi derivati tra cui anche il grigionese caschiel che rappresenta un diminutivo (< lat. caseolus). Ecco lo schema stratigrafico:

AREALI ALP. STRATO romanzo STRATO ger.  (ted.) STRATO slavo (slov.)
ATTUALI Kas, Käse
      SOSTRATO  ↑          
TARD. ANT.  latino-romanzo caseus
grigio=latino-romanzo, blu=germanico, giallo=slavo

Il tipo di base latino si è conservato altrove, ad esempio nel tipo cacio dell‘Italia centrale e meridionale (cf. AIS 1217, salare il formaggio  e nell‘iberoromanzo (por. queijo, spa. queso ecc.).

5° esempio: stratigrafia dei tipi di base *toma e forma/formaticum

Il fatto che questo tipo sia stato sostituito nelle regioni abitate dalle popolazioni celtiche (Italia sett., Francia, Alpi) fa pensare a uno sviluppo avanzato delle tecniche di caseificazione negli ambienti culturali correspondenti. Si noti anche che si tratta in parte di tipi sostratici, (ad es. toma), magari collegati a tecniche assunte dai romani, e in parte di tipi innovativi, come ad esempio il tipo di base forma, appena menzionato, cui appartengono fra. fromage, ita. formaggio ecc.

AREALI ALPINI   STRATO romanzo
STRATO ger.
STRATO sla.
ATTUALI tomme/toma
fourme, fromage/formaggio
   
MEDIEV.   ted.mer.ant. formizzi  
   
TARD. ANT.  latino-romanzo forma(m), [caseum] formaticum
 celt. *toma – SOSTRATO prelatino
rosso=prelatino, grigio=latino-romanzo, blu=germanico, giallo=slavo

Il caso merita un commento. Il tipo fra. tomme / ita. toma è piuttosto generico e semanticamente non motivato in sincronia; il significato largamente predominante è quello di ‚formaggio‘, qua e là anche ‚cagliata‘ o ‚formaggio freschissimo‘, cioè la massa solida dopo il riscaldamento e la coagulazione del latte (cf. carta). Al contrario, il tipo forma/formaticum è ben motivato: esso significava originariamente ‚massa caseosa messa in forma e indurita‘. È anche attestato in tedesco meridionale antico nella variante formizzi.

Si noti poi che il volume della massa è ridotto quando essa viene messa e premuta in uno stampo dove rimane per stagionare. È dunque anche ben motivato il diminutivo romancio caschiel, oggi generico ma forse originariamente usato per la massa messa in forma e ridotta di volume. È inoltre chiaro che il prodotto messo in forma e indurito risulta molto più prezioso e pregiato rispetto alla massa caseosa fresca, perché esso si conserva a lungo. Non sorprende, quindi, che la designazione sia stata tanto generalizzata al punto tale che fra. fromage / ita. formaggio significano oggi qualsiasi prodotto caseario.


  1. Sulle implicazioni storiche si veda <span class="bibl" data-bibl="štich2014">Štich 2014</span>. 

  2. si vedano a<span style="font-size: 1rem"> proposito i ben noti lavori di <span class="bibl" data-bibl="jud1911a">Jud 1911a</span>, <span class="bibl" data-bibl="jud1911b">Jud 1911b</span>, <span class="bibl" data-bibl="jud1924">Jud 1924</span>, <span class="bibl" data-bibl="stampa1937">Stampa 1937</span>, <span class="bibl" data-bibl="hubschmid1950">Hubschmid 1950</span> e <span class="bibl" data-bibl="hubschmid1951">Hubschmid 1951</span> 

  3. nel concreto, la zona indagata da VerbaAlpina coincide con il cosiddetto perimetro della Convenzione delle Alpi 

  4.  

  5. Cf. Kluge 2012,  online o.<span class="vaabr" data-vaabr="SDOT">S.</span>: „<strong>Zimmer</strong>, Sn std. (8. <span class="vaabr"><span class="vaabr" data-vaabr="JhDOT">Jh.</span></span>), mhd. <em>zimber, zim(m)er</em> <span class="vaabr" data-vaabr="mDOT">m.</span>/<span class="vaabr"><span class="vaabr" data-vaabr="nDOT">n.</span></span>, <span class="vaabr"><span class="vaabr" data-vaabr="ahdDOT">ahd.</span></span> <em><span class="va-marked">zimbar</span></em>, as. <em>timbar</em> ‛Wohnraum, Wohnung, Holzbau, Bauholz’.<br /> Aus g. *<em>temra-</em> <span class="vaabr"><span class="vaabr" data-vaabr="nDOT">n.</span></span> ‛Bauholz, Gezimmertes’, auch in ­anord. <em>timbr</em>, ae. afr. timber; gt. in <em>tim(b)rjan</em> ‛zimmern’ (wie ­anord. <em>timbra</em>, ae. <em>timbr(i)an</em>, afr. <em>timbria, timmeria</em>, as. <em>timbron</em>, <span class="vaabr"><span class="vaabr" data-vaabr="ahdDOT">ahd.</span></span> <em>zimb(a)rōn</em>, mhd. <em>zimbren, zimmern</em>, nhd. <em>zimmern</em>). […]“. 

  6. Kluge 2012 (online, o.<span class="vaabr" data-vaabr="SDOT">S.</span>):<br /> „<strong>Kammer</strong> Sf erw. obs. (8. <span class="vaabr"><span class="vaabr" data-vaabr="JhDOT">Jh.</span></span>), mhd. <em>kamer(e)</em>, <span class="vaabr"><span class="vaabr" data-vaabr="ahdDOT">ahd.</span></span> <em>chamara</em>, as. <em>kamara</em> Früh entlehnt aus l. <em>camera</em> ‛gewölbte Decke’, dann ‛Zimmer mit gewölbter Decke, Wölbung’, das seinerseits aus gr. <em>kamára</em> ‛Gewölbe, gewölbte Kammer’ entlehnt ist. […] Ebenso nndl. <em>kamer</em>, ne. <em>chamber</em>, nfrz. <em>chambre</em>, nschw. <em>kammare</em>, nnorw. <em>kammer“</em>.<br /> La lessicologia greca conferma la posizione di Kluge; cf. LSJ, <span class="vaabr"><span class="vaabr" data-vaabr="sDOTvDOT">s.v.</span></span> <a href="http://stephanus.tlg.uci.edu/lsj/#eid=54478&context=lsj&action=from-search" target="_BLANK">κᾰμάρ-α, Ion. κᾰμάρ-η [μᾰ], ἡ</a>). 

VerbaAlpina – eine virtuelle Forschungsumgebung (Zitieren)

Thomas Krefeld
(1971 Wörter)

Thomas Krefeld

Orientierungsmodul, 15.1.2019

Vorab: Heute ist – wie sich zeigen wird – ein glücklicher Termin für das Thema dieses Vortrags, denn wir schreiben den 18. Geburtstag von Wikipedia. Dieses Ereignis markiert im Rückblick den Beginn einer neuen Epoche auf dem Weg in die Wissensgesellschaft.

(1) Der Untersuchungsraum

Gegenstand dieses Vortrags ist das Projekt VerbaAlpina, das ich gemeinsam mit Stephan Lücke von der ITG leite. Es wird seit 2014 von der Deutschen Forschungsgemeinschaft (DFG) gefördert. Gegenstand ist die Mehrsprachigkeit des Alpenraums, in dem sich die drei großen europäischen Sprachfamilien, Germanisch, Romanisch und Slawisch getroffen haben und seit ca. 1500 Jahren neben- und miteinander existieren (vgl. Karte).

Die Sprachverhältnisse sind jedoch erheblich komplizierter als die Rede von den drei ‚Familien‘ sowie deren kartographische Darstellung andeutet, denn dazu gehören im Romanischen eine ganze Reihe von Sprachen mit jeweils sehr verschiedenen Dialekten; im Germanischen und Slawischen gibt zwar jeweils nur eine Sprache (Deutsch und Slowenisch), die jedoch ebenfalls durch ganz unterschiedliche, lokale Dialekte vertreten sind.

Dialekt (unvollständig) Dialektgruppe Sprache Sprachfamilie
Valdostano / Valdôtain  Valdostano / Valdôtain  rom
Occitan  Okzitanisch
Francoprovençal  Frankoprovenzalisch
Piemontese Italienisch
Lombardo
Bregagliotto
 Veneto
Puter Bündnerromanisch
Surmiran
Sursilvan
Sutsilvan
Vallader
Jauer
Badiot Dolomitenladinisch
Maréo
Gherdëina
Fascian
Anpezan
Fodom
Furlan  Friaulisch
Alemannisch Alemannisch Deutsch ger
Walserisch
Vorarlbergerisch
Schwäbisch
Bairisch Bairisch
Allgäuerisch
Zimbrisch
Tirolerisch
Steirisch
Kärntnerisch
Salzburgisch
Oberösterreichisch
Dolenjsko Slowenisch sla
Koroško
Štajersko
Gorenjsko
Rovtarsko
Slovenščina
Rezijansko

Im Wesentlichen haben sich in der sprachwissenschaftlichen Forschung zwei Gattungen herausgebildet, um Dialekte zu dokumentieren

  • Sprachatlanten;
  • Wörterbücher.

Beide Gattungen sind im Untersuchungsgebiet gut vertreten. Den Prototyp eines Sprachatlas verkörpert z.B. der Sprach- und Sachatlas Italiens und der Südschweiz (AIS), den man als NavigAIS im Internet konsultieren kann. Nun gibt es aber nicht nur diesen, sondern eine ganze Reihe von Sprachtlanten im Alpenraum. Analog, ja noch komplexer ist die Erschließung durch Wörterbücher. Es ist dementsprechend schwer, einen detaillierten Überblick zu gewinnen; selbst in einer der wenigen Bibliotheken, wo alle vorhanden einschlägigen Quellen vorhanden sind, ist die Recherche extrem aufwändig.

Gerade ein solcher Überblick vermittelt jedoch wichtige historische Einsichten, denn er führt uns die bemerkenswerte Situation vor Augen, dass etliche spezifisch alpine Wörter nicht auf eine der drei Sprachfamilien beschränkt sind, sondern über die Grenzen dieser Sprachfamilien hinaus Verbreitung gefunden haben. Gerade eine sprachgrenzüberschreitende Untersuchung ist  also erforderlich und als einzige dem Raum angemessen. Die folgende Graphik schematisiert die alpine Sprachgeschichte; konstitutiv sind die Romanisierung des gesamten Gebiets (seit 15 vor Chr.) und seine nachfolgende teilweise Germanisierung und Slawisierung. Damit ist zwar stets eine  Verdrängung der jeweils früheren Sprachen verbunden, insofern das Lateinisch-Romanische  die vorrömischen Sprachen verdrängt und  seinerseits in manchen Gebieten durch das Germanische und Slawische verdrängt wird. Aber der Verdrängung geht eine mehr oder weniger lang andauernde lokale Zweisprachigkeit voraus (in der Graphik durch Kugeln symbolisiert), die sich in Entlehnungen aus den verdrängten in die verdrängenden Sprachen niederschlägt, so dass sich die erwähnten sprachgrenzüberschreitenden Verbreitungsgebiete ergeben.

Es ist nun aber von vornherein klar, dass die Dokumentation eines so komplexen Sprachraum mit der skizzierten historischen Tiefe mit dem Medium des gedruckten Buchs kaum, wenn überhaupt, zu leisten ist. Dieser Vortrags situiert das Projekt in der aktuellen Forschung und skizziert seine Konzeption und Durchführung.

(2) Hintergrund: Die Sprachwissenschaft auf dem Weg in die digital humanities

Seit ca. 15 Jahren, d.h. seit der zügigen Durchsetzung interaktiver und kollaborativer Strukturen im Internet Web 2.0  durchlaufen zahlreiche wissenschaftliche Disziplinen einen Prozess tiefgreifenden Wandels, denn im Gefolge der medialen Revolution haben sich die Rahmenbedingungen der Wissenschaftskommunikation substantiell verändert (vgl. die oben auf dieser Seite angebrachte Einladung Schreibe eine Antwort). In den Disziplinen, die sich mit kulturellen Techniken und ihrer geschichtlichen Entwicklung befassen, kann dieser Wandel mit dem Schlagwort der digital humanities identifiziert werden. Es ist nicht überraschend, dass die Wissenschaftler unterschiedlich auf diese Situation reagieren, nämlich teils mit

  • offensiver Ablehnung (Motto: „Das bedeutet den Ausverkauf der akademischen Fächer“),
  • nonchalanter Indifferenz (Motto: „Der kindische Unfug lässt mich kalt“),
  • konstruktiver Akzeptanz (Motto: „Endlich wird möglich, was ich immer schon wollte“).

Nicht im Sinn eines missionarischen Eifers, sondern aus rein forschungspraktischer Überzeugung kommt für datenorientierte Disziplinen wie die historische Sprachwissenschaft eigentlich nurmehr die dritte Haltung in Frage. Wenn man diese Herausforderung jedoch annimmt, ändert sich fast Alles, sogar die forschungsethischen Grundlagen, die seit wenigen Jahren mit den wichtigen FAIR-Prinzipien eine nützlich Programmatik erhalten haben; VerbaAlpina ist bemüht diese Prinzipien systematisch umzusetzen ( 🔗).

(3) Funktionsbereiche

Für die Einrichtung von Forschungsvorhaben (und womöglich angeschlossener universitärer Lehre) mit den Mitteln der Webtechnologie wurde eine neue, nützliche Bezeichnung geprägt; man spricht von einer virtuellen Lehr- und Forschungsumgebung.

Dieser Ausdruck wurde erforderlich, da Wissenschaftskommunikation unter den Bedingungen des Web 2.0, wie oben skizziert, nicht mehr den etablierten Gattungen der gedruckten Traditionen folgen kann, oder zumindestens nicht mehr unbedingt folgen muss. Sprachwssenschaftlich relevante Gattungen sind zum Beispiel die Abhandlung, das Textkorpus oder die bereits genannten Sprachatlanten und Wörterbücher. Jede Gattung erfüllt einen bestimmten Zweck, der auf keinen Fall aufgegeben werden sollte. Jedoch werden diese Zwecke aus ihrer Isolierung befreit und in untereinander verknüpfte Funktionen verwandelt, so dass es möglich ist ohne weiteres zwischen ihnen hin und her zu wechseln.

VerbaAlpina unterscheidet fünf Funktionsbereiche und mehrere Zugangsmöglichkeiten:

    • Dokumentation,
    • Kooperation,
    • Publikation,
    • Datenerhebung durch Crowdsourcing,
    • Forschungslaboratorium.

Diese Optionen sollen – von der letzten abgesehen – nun ausgehend von einem konkreten Beispiel vorgeführt werden. Einen unmittelbaren Zugang bieten die Reiter der Startseite. So eröffnet die ‚Interaktive Karte‘ eine kartographische Präsentation des dokumentierten Materials, die über mehrere Filter gesteuert wird. Der Filter KONZEPTE erschließt sämtliche Sachen und Vorgänge, deren Bezeichnungen erfasst sind (vgl. zur Notation), so zum Beispiel die BUTTER. Die belegten Bezeichnungstypen können ebenfalls herausgefiltert werden, so dass ihre jeweiligen Bedeutungen auf der Karte erscheinen.

Weiterhin ist es möglich von der  Karte aus den zugehörigen lexikologischen Kommentar abzurufen, so wie der lexikologische Kommentar in der entgegengesetzten Richtung zur kartographischen Päsentation führt – ‚Atlas‘ und ‚Wörterbuch‘ sind also systematisch verschränkt. Übrigens handelt es sich keineswegs um ein uninteressantes Allerweltsbeispiel, denn sowohl die Sache als auch ihre Bezeichnungen haben einen ausgeprägten Bezug zum Alpenraum. Die Nutzung des Milchfetts ist ja dort besonders nahe liegend, wo die wichtigste antike Quelle für Fett, der Olivenbaum, nicht gedeiht. Ab einer bestimmten Höhe konnten ausschließlich tierische Fette gewonnen werden, insbesondere SCHMALZ und BUTTER. Es ist daher nicht überraschend, sondern geradezu selbstverständlich, dass in einem Teil Graubündens, also in einer Gegend, wo BUTTER traditionell das Fett schlechthin darstellt, ihre Bezeichnung auf das lateinische pinguis ‚fett‘ zurück geht. (; vgl. surs. pieun/engad. painch u.a. im Pledari grond).
Zwar war BUTTER grundsätzlich schon in der Antike bekannt, jedoch nicht als Nahrungsmittel, sondern als medizinische Salbe.

Auch die Herkunft anderer Formen ist bemerkenswert; rätoromanisch (surs.) pischada ist durch die Herstellung motiviert, denn dieser Typ geht wahrscheinlich auf das lateinische Verb *pisiare ’stampfen‘ zurück (vgl. s.v. pischada). BUTTER ist sehr leicht verderblich; durch Auslassen kann die Haltbarkeit ein wenig gesteigert werden. daher ist es gut verständlich, dass in manchen Gegenden die BUTTER als Schmalz bezeichnet wird (von schmelzen im Sinne von ‚auslassen‘; vgl. diese Karte). Dieser Bezeichnungstyp ist aus dem Germanischen auch ins Romanische übernommen worden und hat dort zu Bezeichnungen von verwandten Konzepten geführt (vgl. Basistyp butyrum sowie das folgende Entlehnungsschema:

Zur historischen Rahmung der dialektalen Verbreitungsgebiete ist es sinnvoll, sie mit anderen  georeferenzierbaren Informationen zu kombinieren. Im Hinblick auf die Romanisierung des Alpenraums im Gefolge der römischen Eroberung sind vor allem antike Quellen von Bedeutung.; aus diesem Grund wurden auch die gesicherten Inschriften und römerzeitlichen Ortsnamen aufgenommen (vgl. die Karte CIL und Tabula Peutingeriana sowie die Hinweise zu den historischen Daten); vor diesem Hintergrund ist es interessant zu sehen, dass sich oft alte Bedeutungen aus der Antike bis heute gerade da erhalten haben, wo auch bereits römische Inschriften und antike Ortsnamen bezeugt sind. So bezeichnet der Worttyp Keller < lat. cellarium im deutschsprachigen Alpenraum in der Regel keineswegs einen RAUM UNTER DEM ERDGESCHOSS, sondern – wie das Grundwort lat. cella – den VORRATS- bzw. LAGERRAUM.

Der Filter Kartographische Darstellung → Informanten zeigt, aus welchen zahlreichen sprachwissenschaftlichen Quellen sich die Dokumentation speist. Bei den meisten davon handelt es sich um gedruckte Quellen (Atlanten und Wörterbücher), die in aufwändiger Weise retrodigitalisiert wurden, so dass ihre Belege zu einem Dialektmosaik des ganzen Alpenbogens zusammengefügt werden konnten. Manche, bereits digital vorliegende Projekte haben uns auch umfangreiche Datenbestände zur Verfügung gestellt, so dass ihre daten – selbstverständlich mit Quellenangabe – auch in der verbaAlpine Kartographie erfasst werden können. Hier ist zum Beispiel ganz im Sinn breiter Kooperation der dolomitenladinische Sprachatlas (ALD) von Hans Goebl zu nennen (vgl. ALD-Informanten in VA).

Zusätzlich zur Präsentation der Daten, die bereits durch andere (meist) gedruckte Quellen publiziert wurden, nutzt VerbaAlpina seine Projektseite auch zur Neuerhebung von Daten mit einem so genannten Crowdsourcing-Verfahren. Interessierte Nutzer können für alle politischen Gemeinden des Alpenraums (im Sinn der Alpenkonvention) Bezeichnungen der von uns vorgegebenen Konzepte eingeben oder darüber hinaus auch neue Konzepte hinzufügen. Bislang sind seit dem 10.2.2017 immerhin über 11.000  Bezeichnungen geliefert worden (vgl. diese Statistik). Mit diesem einfachen Verfahren können Bezeichnungstypen zuverlässig erhoben werden – allerdings können zuverlässige phonetische Angaben nicht erwartet werden; die Phonetik tritt in VerbaAlpina daher zurück. Grundsätzlich wird jedoch erwogen, unter Umständen auch mit der Erhebung gesprochener Audiodaten zu beginnen; die technischen Probleme sind grundsätzlich gelöst.

(4) Sprachlicher Gegenstand: Der alpine Wortschatz

Bei den eben genannten Beispielen Butter und Schmalz handelt es sich aktuell nicht um spezifisch alpine Ausdrücke, denn sie gelten ja auch in der deutschen Hochsprache und darüber hinaus (vgl. z.B. eng. butter, niederl. boter). Durchaus charakteristisch für das Alpengebiet ist jedoch die herausgestellte Verbreitung der Typen über die Grenzen der Sprachfamilien hinweg, und im Hinblick auf die lange Tradition der alpinen Milchverarbeitung ist es keineswegs abwegig, sondern sogar plausibel anzunehmen, die hochsprachliche Form Butter habe sich ausgehend von den Alpen überhaupt erst verbreitet. Es wäre demnach davon auszugehen, dass sie eben in dieser Region aus dem Lateinisch-Romanischen entlehnt wurde; es scheint sich – mit anderen Worten – um ein ehemaliges Alpenwort zu handeln..

Ein gutes sprachliches Argument für diese Vermutung ist die Tatsache, dass Butter im süddeutschen, d.h. im Bairischen und gelegentlich im Alemannischen, maskulines Genus besitzt (bair. der Butter im Unterschied zu hochdeutsch die Butter) und damit noch genau dem ebenfalls maskulinen rom. Typ butirro entspricht, von dem es entlehnt wurde; die  Karte ist eindeutig, da der leere Bereich zwischen beiden Gebieten nur den fehlenden, besser: ungenauen Daten geschuldet ist, da das Genus oft nicht notiert wurde.

Wirklich konstitutiv für den alpinen Sprachraum sind jedoch die Ausdrücke, die spezifische Konzepte bezeichnen und den Dialekten außerhalb der Alpen unbekannt sind. Einige Beispiele aus dem Bereich ALMWESEN und speziell aus der MILCHVERARBEITUNG sollen Charakteristika dieser Alpenwörter illustrieren:

Alpenwörter gehen meistens auf die Zeit zurück bevor der Alpenraum teils germanisiert und slawisiert wurde; sie stammen dann aus dem Lateinischen oder aus den (so gut wie unbekannten) vorrömischen  Sprachen dieses Raums.

Vorrömisch sind:

  • ALM/ALP
  • SENN und vgl. Niev vocabulari sursilvan online s.v. signun
  • ZIGER
  • TOMME, das charakterisch für die Westalpen ist; es ist übrigens auch deshalb interessant, weil es im Mittelalter, nach der Reromanisierung Siziliens mit Siedlern aus Nordwestitalien nach Sizilien gebracht wurde (vgl. tuma, tumazzu unter ALS online). Diese Parallele wird durch einen anderen Typ bestätigt; das KÄSEN wird von 3 Informanten in den sizilianischen Madonie mit dem Typ fare il fruttobezeichnet (frutto in der Bedeutung ‚Käse‘; vgl. den morpho-lexikalischen Typ fari u fruttu unter: ALS online). Auch dieser spezielle Ausdruck ist in den Alpen belegt, und zwar genau im mutmaßlichen Herkunftsgebiet zahlreicher galloitalischer Kolonisten (vgl. KÄSEN, die mit dem Adelsgeschlecht der Aleramici nach Sizilien kamen.

Die Zugehörigkeit des gesamten Gebiets zum Römischen Reich spiegelt sich exemplarisch gut in der Verbreitung des Typs lat. EXCOCTA, wörtlich ‚Herausgekochtes‘, der sich sowohl im romanischen wie im deutschen und slowenischen Teil wiederfindet. Die zugehörigen Wörter (alem. Schotten, ita. scotta usw.) beziehen sich auf das Erhitzen der Molke, um die verbliebenen Feststoffe durch Zusatz von Säure als Gerinnungsmittel herauszufiltern; sie bezeichnen teils teils die Feststoffe, teils die Flüssigkeit.

Ein methodisches Lehrstück, jenseits der MILCHVERARBEITUNG ist die Bezeichnung der GÄMSE.

VerbaAlpina: Der alpine Wortschatz und wie man ihn heute erforscht (Zitieren)

Thomas Krefeld
(1561 Wörter)

Sils Maria, 27.12.2017

Gegenstand dieses Vortrags ist das Projekt VerbaAlpina, das ich gemeinsam mit Stephan Lücke von der ITG leite. Es wird seit 2014 von der Deutschen Forschungsgemeinschaft (DFG) gefördert und wurde hier bereits einmal vorgestellt, als es noch in einem sehr frühen embryonalen Zustand war (vgl. Engadiner_Post). Gegenstand ist die Mehrsprachigkeit des Alpenraums, in dem sich die drei großen europäischen Sprachfamilien, Germanisch, Romanisch und Slawisch getroffen haben und seit ca. 1500 Jahren neben- und miteinander existieren (). Die folgende Graphik schematisiert die alpine Sprachgeschichte; konstitutiv sind die Romanisierung des gesamten Gebiets und seine nachfolgende teilweise Germanisierung und Slawisierung. Damit ist zwar stets eine  Verdrängung der jeweils früheren Sprachen verbunden, insofern das Lateinisch-Romanische  die vorrömischen Sprachen verdrängt und  seinerseits in manchen Gebieten durch das Germanische und Slawische verdrängt wird. Aber der Verdrängung geht eine mehr oder weniger lang andauernde lokale Zweisprachigkeit voraus (in der Graphik durch Kugeln symbolisiert), die sich in Entlehnungen aus den verdrängten in die verdrängenden Sprachen niederschlägt.  So hat sich die bemerkenswerte Situation ergeben, dass etliche spezifisch alpine Wörter nicht auf eine der drei Sprachfamilien beschränkt sind, sondern über die Grenzen dieser Sprachfamilien hinaus Verbreitung gefunden haben.

Dieser Beitrag situiert das Projekt in der aktuellen Forschung und skizziert seine Konzeption und Durchführung; die thematischen Schwerpunkte lassen sich aus Schlüsselwörtern des Titels entwicklen.

(1) …heute…

Seit ca. 15 Jahren, d.h. seit der zügigen Durchsetzung interaktiver und kollaborativer Strukturen im Internet Web 2.0  durchlaufen zahlreiche wissenschaftliche Disziplinen einen Prozess tiefgreifenden Wandels, denn im Gefolge der medialen Revolution haben sich die Rahmenbedingungen der Wissenschaftskommunikation substantiell verändert (vgl. die oben auf dieser Seite angebrachte Einladung Schreibe eine Antwort). In den Disziplinen, die sich mit kulturellen Techniken und ihrer geschichtlichen Entwicklung befassen, kann dieser Wandel mit dem Schlagwort der digital humanities identifiziert werden. Es ist nicht überraschend, dass die Wissenschaftler unterschiedlich auf diese Situation reagieren, nämlich teils mit

  • offensiver Ablehnung (Motto: „Das bedeutet den Ausverkauf der akademischen Fächer“),
  • nonchalanter Indifferenz (Motto: „Der kindische Unfug lässt mich kalt“),
  • konstruktiver Akzeptanz (Motto: „Endlich wird möglich, was ich immer schon wollte“).

Nicht im Sinn eines missionarischen Eifers, sondern aus rein forschungspraktischer Überzeugung kommt für datenorientierte Disziplinen wie die historische Sprachwissenschaft eigentlich nurmehr die dritte Haltung in Frage. Wenn man diese Herausforderung jedoch annimmt, ändert sich fast Alles.

(2) …erforscht.

Für die Einrichtung von Forschungsvorhaben (und womöglich angeschlossener universitärer Lehre) mit den Mitteln der Webtechnologie wurde eine neue, nützliche Bezeichnung geprägt; man spricht von einer virtuellen Lehr- und Forschungsumgebung.

Dieser Ausdruck wurde erforderlich, da Wissenschaftskommunikation unter den Bedingungen des Web 2.0, wie oben skizziert, nicht mehr den etablierten Gattungen der gedruckten Traditionen folgen kann, oder zumindestens nicht mehr unbedingt folgen muss. Sprachwssenschaftlich relevante Gattungen sind zum Beispiel die Abhandlung, der Sprachatlas, das Wörterbuch oder  das Textkorpus. Jede Gattung erfüllt einen bestimmten Zweck, der auf keinen Fall aufgegeben werden sollte. Jedoch werden diese Zwecke aus ihrer Isolierung befreit und in untereinander verknüpfte Funktionen verwandelt, so dass es möglich ist ohne weiteres zwischen ihnen hin und her zu wechseln.

VerbaAlpina unterscheidet fünf Funktionsbereiche und mehrere Zugangsmöglichkeiten:

    • Dokumentation,
    • Kooperation,
    • Publikation,
    • Datenerhebung durch Crowdsourcing,
    • Forschungslaboratorium.

Diese Optionen sollen – von der letzten abgesehen – nun ausgehend von einem konkreten Beispiel vorgeführt werden. Einen unmittelbaren Zugang bieten die Reiter der Startseite. So eröffnet die ‚Interaktive Karte‘ eine kartographische Präsentation des dokumentierten Materials, die über mehrere Filter gesteuert wird. Der Filter KONZEPTE erschließt sämtliche Sachen und Vorgänge, deren Bezeichnungen erfasst sind (vgl. zur Notation), so zum Beispiel die BUTTER. Die belegten Bezeichnungstypen können ebenfalls herausgefiltert werden, so dass ihre jeweiligen Bedeutungen auf der Karte erscheinen.

Weiterhin ist es möglich von der  Karte aus den zugehörigen lexikologischen Kommentar abzurufen, so wie der lexikologische Kommentar in der entgegengesetzten Richtung zur kartographischen Päsentation führt – ‚Atlas‘ und ‚Wörterbuch‘ sind also systematisch verschränkt. Übrigens handelt es sich keineswegs um ein uninteressantes Allerweltsbeispiel, denn sowohl die Sache als auch ihre Bezeichnungen haben einen ausgeprägten Bezug zum Alpenraum. Die Nutzung des Milchfetts ist ja dort besonders nahe liegend, wo die wichtigste antike Quelle für Fett, der Olivenbaum, nicht gedeiht. Ab einer bestimmten Höhe konnten ausschließlich tierische Fette gewonnen werden, insbesondere SCHMALZ und BUTTER. Es ist daher nicht überraschend, sondern geradezu selbstverständlich, dass in einem Teil Graubündens, also in einer Gegend, wo BUTTER traditionell das Fett schlechthin darstellt, ihre Bezeichnung auf das lateinische pinguis ‚fett‘ zurück geht. (; vgl. surs. pieun/engad. painch u.a. im Pledari grond).
Zwar war BUTTER grundsätzlich schon in der Antike bekannt, jedoch nicht als Nahrungsmittel, sondern als medizinische Salbe.

Auch die Herkunft anderer Formen ist bemerkenswert; rätoromanisch (surs.) pischada ist durch die Herstellung motiviert, denn dieser Typ geht wahrscheinlich auf das lateinische Verb *pisiare ’stampfen‘ zurück (vgl. s.v. pischada). BUTTER ist sehr leicht verderblich; durch Auslassen kann die Haltbarkeit ein wenig gesteigert werden. daher ist es gut verständlich, dass in manchen Gegenden die BUTTER als Schmalz bezeichnet wird (von schmelzen im Sinne von ‚auslassen‘; vgl. diese Karte). Dieser Bezeichnungstyp ist aus dem Germanischen auch ins Romanische übernommen worden und hat dort zu Bezeichnungen von verwandten Konzepten geführt (vgl. Basistyp butyrum sowie das folgende Entlehnungsschema:

Zur historischen Rahmung der dialektalen Verbreitungsgebiete ist es sinnvoll, sie mit anderen  georeferenzierbaren Informationen zu kombinieren. Im Hinblick auf die Romanisierung des Alpenraums im Gefolge der römischen Eroberung sind vor allem antike Quellen von Bedeutung.; aus diesem Grund wurden auch die gesicherten Inschriften und römerzeitlichen Ortsnamen aufgenommen (vgl. die Karte CIL und Tabula Peutingeriana sowie die Hinweise zu den historischen Daten); vor diesem Hintergrund ist es interessant zu sehen, dass sich oft alte Bedeutungen aus der Antike bis heute gerade da erhalten haben, wo auch bereits römische Inschriften und antike Ortsnamen bezeugt sind. So bezeichnet der Worttyp Keller < lat. cellarium im deutschsprachigen Alpenraum in der Regel keineswegs einen RAUM UNTER DEM ERDGESCHOSS, sondern – wie das Grundwort lat. cella – den VORRATS- bzw. LAGERRAUM.

Der Filter Kartographische Darstellung → Informanten zeigt, aus welchen zahlreichen sprachwissenschaftlichen Quellen sich die Dokumentation speist. Bei den meisten davon handelt es sich um gedruckte Quellen (Atlanten und Wörterbücher), die in aufwändiger Weise retrodigitalisiert wurden, so dass ihre Belege zu einem Dialektmosaik des ganzen Alpenbogens zusammengefügt werden konnten. Manche, bereits digital vorliegende Projekte haben uns auch umfangreiche Datenbestände zur Verfügung gestellt, so dass ihre daten – selbstverständlich mit Quellenangabe – auch in der verbaAlpine Kartographie erfasst werden können. Hier ist zum Beispiel ganz im Sinn breiter Kooperation der dolomitenladinische Sprachatlas (ALD) von Hans Goebl zu nennen (vgl. ALD-Informanten in VA).

Zusätzlich zur Präsentation der Daten, die bereits durch andere (meist) gedruckte Quellen publiziert wurden, nutzt VerbaAlpina seine Projektseite auch zur Neuerhebung von Daten mit einem so genannten Crowdsourcing-Verfahren. Interessierte Nutzer können für alle politischen Gemeinden des Alpenraums (im Sinn der Alpenkonvention) Bezeichnungen der von uns vorgegebenen Konzepte eingeben oder darüber hinaus auch neue Konzepte hinzufügen. Bislang sind seit dem 10.2.2017 immerhin über 7 300 Bezeichnungen geliefert worden (vgl. diese Statistik). Mit diesem einfachen Verfahren können Bezeichnungstypen zuverlässig erhoben werden – allerdings können zuverlässige phonetische Angaben nicht erwartet werden; die Phonetik tritt in VerbaAlpina daher zurück. Grundsätzlich wird jedoch erwogen, unter Umständen auch mit der Erhebung gesprochener Audiodaten zu beginnen; die technischen Probleme sind grundsätzlich gelöst.

(3) Der alpine Wortschatz…

Bei den eben genannten Beispielen Butter und Schmalz handelt es sich aktuell nicht um spezifisch alpine Ausdrücke, denn sie sind gelten ja auch in der deutschen Hochsprache und darüber hinaus (vgl. z.B. eng. butter, niederl. boter). Durchaus charakteristisch für das Alpengebiet ist jedoch die herausgestellte Verbreitung der Typen über die Grenzen der Sprachfamilien hinweg und im Hinblick auf die lange Tradition der alpinen Milchverarbeitung ist es keineswegs abwegig, sondern sogar plausibel anzunehmen, die hochsprachliche Form Butter habe sich ausgehend von den Alpen überhaupt erst verbreitet. Es wäre demnach davon auszugehen, dass sie eben in dieser Region aus dem Lateinisch-Romanischen entlehnt wurde.

Ein gutes sprachliches Argument für diese Vermutung ist die Tatsache, dass Butter im süddeutschen, d.h. im Bairischen und gelegentlich im Alemannischen, maskulines Genus besitzt (bair. der Butter im Unterschied zu hochdeutsch die Butter) und damit noch genau dem ebenfalls maskulinen rom. Typ butirro entspricht, von dem es entlehnt wurde; die  Karte ist eindeutig, da der leere Bereich zwischen beiden Gebieten nur den fehlenden, besser: ungenauen Daten geschuldet ist, da das Genus oft nicht notiert wurde.

Wirklich konstitutiv für den alpinen Sprachraum sind jedoch die Ausdrücke, die spezifische Konzepte bezeichnen und den Dialekten außerhalb der Alpen unbekannt sind. Einige Beispiele aus dem Bereich ALMWESEN und speziell aus der MILCHVERARBEITUNG sollen Charakteristika dieser Alpenwörter illustrieren:

Alpenwörter gehen meistens auf die Zeit zurück bevor der Alpenraum teils germanisiert und slawisiert wurde; sie stammen dann aus dem Lateinischen oder aus den (so gut wie unbekannten) vorrömischen  Sprachen dieses Raums.

Vorrömisch sind:

  • ALM/ALP
  • SENN und vgl. Niev vocabulari sursilvan online s.v. signun
  • ZIGER
  • TOMME, das charakterisch für die Westalpen ist; es ist übrigens auch deshalb interessant, weil es im Mittelalter, nach der Reromanisierung Siziliens mit Siedlern aus Nordwestitalien nach Sizilien gebracht wurde (vgl. tuma, tumazzu unter ALS online).

Die Zugehörigkeit des gesamten Gebiets zum Römischen Reich spiegelt sich exemplarisch gut in der Verbreitung des Typs lat. EXCOCTA, wörtlich ‚Herausgekochtes‘, der sich sowohl im romanischen wie im deutschen und slowenischen Teil wiederfindet. Die zugehörigen Wörter (alem. Schotten, ita. scotta usw.) beziehen sich auf das Erhitzen der Molke, um die verbliebenen Feststoffe durch Zusatz von Säure als Gerinnungsmittel herauszufiltern; sie bezeichnen teils teils die Feststoffe, teils die Flüssigkeit.

Ein methodisches Lehrstück, jenseits der MILCHVERARBEITUNG ist die Bezeichnung der GÄMSE.

Orientierungsmodul 20170117 (Zitieren)

Thomas Krefeld | Stephan Lücke
(4595 Wörter)

Projektpräsentation im Rahmen des Orientierungsmoduls, BA Italianistik, LMU, 17.1.2017

Übersicht

qr code
Vorbemerkung: Forschung und Medien – nach der 2. medialen Revolution

Zur Konzeption

Funktionsbereich (1):  Dokumentation 

Funktionsbereich (2):  Kooperation

Funktionsbereich (3): Publikation

Funktionsbereich (4): Datenerhebung durch Crowdsourcing

Funktionsbereich (5): virtuelles Forschungslabor


Zur Konzeption

Die Raumorientierung

VerbaAlpina (VA) dokumentiert die dialektale Variation innerhalb eines ethnographisch (und weder sprachlich noch national) definierten Raums, und genau in diesem Sinne ist die Konzeption durchaus ethnolinguistisch; aus rein pragmatischen Gründen wird das Untersuchungsgebiet mit dem Geltungsbereich der so genannten Alpenkonvention gleichgesetzt.

Im Vordergrund steht das Lexikon, und der onomasiologische Rahmen für die Selektion des projektrelevanten Ausschnitts wird durch kulturelle Techniken und Lebensformen abgesteckt, die sich unter den jeweils spezifischen, auch kulturunabhängigen Umweltbedingungen konventionalisiert haben. Dergleichen Räume, die durch die Alpen in prototypischer Weise repräsentiert werden, konnten die sprachwissenschaftlichen Forschungstraditionen nicht angemessen erfassen, da sich die Teildisziplinen, die sich systematisch mit der Konstitution von Räumen beschäftigen – also die Sprachgeographie, bzw. Dialektologie oder auch Geolinguistik – beinahe ausnahmslos an vorgegebenen politischen und/oder (einzel)sprachlichen Grenzen orientieren. Der räumliche Zuschnitt zentraler und in mancher Hinsicht bis heute maßgeblicher Unternehmungen ist zwar nachzuvollziehen (vgl. etwa den AIS und das FEW) – zustimmen mag man jedoch oft nicht. Gerade die besonders faszinierenden mehrsprachigen Kulturräume, also z.B. die Pyrenäen, Korsika und Sardinien im Verbund oder aber das Gebiet zwischen der montenegrinisch-albanischen Adriaküste und der Donau, fallen daher durch das Raster der etablierten, durch nationalphilologische Voreinstellungen gesteuerten Forschung. Der ambitioniert geplante Atlante linguistico mediterraneo hätte ein richtungweisendes Großprojekt werden können; er ist jedoch über Ansätze niemals hinausgekommen.
VerbaAlpina zielt auf den Alpenraum; das Projekt will aber weder Sprach- noch Dialektgrenzen herausarbeiten (vgl. Auer 2004) und keineswegs das Mosaik gegeneinander abgegrenzter Varietäten (Dialekte) abbilden. Vielmehr wird eine Interlinguale Geolinguistik entwickelt, die untersucht, inwieweit spezifische Varianten, nämlich die für den alpinen Kulturraum charakteristischen Bezeichnungstypen, gerade den Dialekten gemeinsam sind und sie womöglich über die Grenzen der Sprachfamilien hinaus verbinden. Die relative Änlichkeit der lokalen Dialekte ergibt sich induktiv aus den Daten selbst. Die einzige vorgegebene Gliederung des Alpenraums, die der Kartographie von vornherein unterlegt wird, betrifft die aktuellen Grenzen zwischen den drei großen Sprachfamilien (Germanisch, Romanisch, Slawisch).

Perspektive

Die Verteilung der Varianten in diesen dialektalen Großräumen impliziert vielfältige, mehr oder weniger weit zurückliegende Kontaktbeziehungen; daher kann die übergreifende Perspektive des Projekts nur eine historische sein. Im Blick auf den skizzierten Untersuchungsraum versteht sich VerbaAlpina allerdings nicht als Beitrag zur nationalen Sprachgeschichtsschreibung der involvierten Sprachen, sondern als Versuch, die Stratigraphie eines mehrsprachigen kommunikativen Raums exemplarisch zu rekonstruieren.

Dabei wird ausschließlich bottom up verfahren, das heißt auf Grundlage von Daten, die lokal georeferenzierbar sind. Die minimale und by default geltende Referenzeinheit ist die politische Gemeinde, genauer gesagt ein Geopunkt, der die Gemeinde als ganze repräsentiert, oder aber die gesamte Gemeindefläche. Im Bedarfsfall kann die Georeferenzierung jedoch einerseits bis auf wenige Meter präzisiert oder aber, andererseits, regional erweitert werden: die Präzisierung gestattet grundsätzlich (mikro)toponomastische Anwendungen und die regionale Zusammenfassung erlaubt insbesondere in quantitativer Hinsicht nützliche synthetische Darstellungen.

Die Fundierung in Webtechnologie

VerbaAlpina kann als eine webbasierte Forschungsumgebung beschrieben werden, die in den digital humanities angesiedelt ist. Dieses Format wird bestimmt durch die aktuellen Rahmenbedingungen, die sich ganz erheblich von der traditionellen Wissenschaftskommunikation unterscheiden. So eröffnen sich in ganz selbstverständlicher Weise fünf unterschiedliche, aber eng miteinander verflochtene Funktionsbereiche angelegt.

Funktionsbereich (1): Dokumentation

Das Untersuchungsgebiet von VerbaAlpina erscheint in geolinguistischer Hinsicht auf den ersten Blick gut erschlossen. Allerdings klafft im zentralen und östlichen Teil Österreichs eine gewaltige Datenlücke.

geoling_va_gebiet

inf_va_legende

Karte 1: Erschließung des alpinen Sprachraums durch Atlanten

Durch Berücksichtigung der Daten des WBÖ, die ja größtenteils lokal erhoben wurden, kann diese Lücke bis zu einem gewissen Grad nun geschlossen werden. Die folgende Karte zeigt, dass alle Erhebungsorte des WBÖ inzwischen georeferenziert wurden, so dass bald Wörterbuchdaten aufgenommen werden können; VerbaAlpina wird jedoch die literarischen Belege des WBÖ systematisch ausblenden.

inf_wboe

Karte 2: Erhebungsnetz des WBÖ

Bei genauerem Hinsehen sind die Verhältnisse allerdings einigermaßen ernüchternd; die folgende, mit dem quantitativen Kartierungstool von VerbaAlpina erzeugte Karte zeigt die Dichte aller Erhebungspunkte des italienischen Staatsgebietes unabhängig von der Sprachzugehörigkeit. Wie man sieht,  ist die Erschließung sehr ungleichmäßig; die Regionen mit Minderheitensprachen erweisen sich als klar privilegiert. – Andere, geolinguistisch hochkomplexe Gegenden, wie zum Beispiel das okzitanisch-piemontesisch-ligurische Übergangsgebiet sind dagegen absolut unterrepräsentiert.

inf_italien

Karte 3: Geolinguistische Erschließung Italiens auf der Ebene der Gemeinden

Den Zugang zur Dokumentation vermitteln zunächst unterschiedliche Filter. Sie erlauben es dem Nutzer, aus den verfügbaren Daten eine gezielte Auswahl zu treffen und kartographisch darzustellen.

In der Kartographie sind mehrere interaktive Optionen vorgesehen, die bislang über die Symbole der Punktsymbolkarten gesteuert werden. Die interaktiven Symbolkarten markieren einen substanziellen Fortschritt der linguistischen und humanwissenschaftlichen Raumdarstellung, da sie es gestatten, stark abstrahierte (’synthetische‘) Repräsentationen mit ganz konkreten, lokalen Informationen (‚analytisch‘) anzureichern. So zeigt die folgende Karte die Verbreitung der Bezeichnungstypen des Konzepts BUTTER im Überblick: Vgl. Karte Konzept BUTTER

 

Linguistische Datenaufbereitung

Bei Aktivierung (‚Klick‘) eines Punktsymbols auf der Karte öffnet sich ein Fenster mit den jeweils für den Ort verfügbaren sprachlichen Daten. Alle Daten werden quellentreu wiedergegeben (als phonetisch transkribierter Einzelbeleg, wie im vorstehenden Beispiel, oder in orthographisch typisierter Form) und allgemeineren Typen zugeordnet; die abstrakteste Kategorie wird durch den etymologisch definierten Basistyp vertreten. Außerdem wird auf Referenzwörterbücher verlinkt, die – wenn möglich – auf standardsprachliche Äquivalente verweisen (hier die Symbole C und T). Das folgende Beispiel zeigt die Bezeichnung des Konzepts RAHM in Bergün (Graubünden):

groma_AIS1204_1_Typ

Karte 5: Präsentation und Typisierung der Sprachdaten im Belegfenster der interaktiven Karte

Wenn standardsprachliche Entsprechungen fehlen, wird auf dialektale Referenzwörterbücher verlinkt (z.B. das Schweizerische Idiotikon). Die Zuweisung jedes Sprachdatums einer Quelle zu einem Typ gestattet es, Quellen ganz unterschiedlicher Art zu kombinieren, ohne ihre erheblichen qualitativen Divergenzen zu verwischen.

Nicht selten sind in den ausgewählten Kategorien bereits zahlreiche sprachliche Ausdrücke verfügbar; die Suche nach dem ‚Konzept‘ BUTTER führt zu 1449 Belegen. Es wird daher die Möglichkeit gegeben, alle relevanten Ausdrücke nach unterschiedlichen Kriterien zu gruppieren und sortieren.

Alternative Visualisierung

Komplementär zur Punktsymbolkarte wird eine interaktive Flächensymbolisierung vorbereitet, um eine gute Visualisierung quantitativer Verhältnisse zu ermöglichen. Dabei sollen einerseits die georeferenzierten Gemeindeflächen zu Grunde gelegt werden (wie auf Karte 3); zusätzlich sollen jedoch alle Gemeinden durch ‚Waben‘ identischer Größe repräsentiert werden; wegen der sehr unterschiedlichen Gemeindegrößen wird die optische Wahrnehmung dadurch unwillkürlich verfälscht. Im Fall gleichgroßer Karteneinträge müsste diese Form der Visualisierung (im Unterschied zum echten Voronoi-Verfahren) allerdings auf die Georeferenzierung verzichten. Hier eine mögliche Kartierung:

VA_Polygone

Quellen

Bislang wurden einige georeferenzierbare Wörterbücher (wie etwa der ALTR), vor allem jedoch Sprachatlanten ausgewertet. Dabei wurden im wesentlichen drei Techniken eingesetzt:

Quellentyp (1): Gedruckte Karten

Bereits auf gedruckten Karten publiziertes Material wurde mit einem speziell entwickelten Tool neu transkribiert und in die VA-Datenbank eingelesen, so im Fall der allermeisten Atlanten (SDS, AIS, TSA usw.). Im Einzelnen sind die Prozeduren für die Digitalisierung jedoch aufwändig und kaum, wenn überhaupt, zu automatisieren. Sie setzen zunächst eine rigorose Trennung der unterschiedlichen Informationen voraus, die eine analoge Sprachkarte liefert. Diese Informationen werden von VerbaAlpina in einem Wissenshorizont strukturiert, der durch die drei Dimensionen der außersprachlichen Realität, der Konzepte und der sprachlichen Ausdrücke abgesteckt wird.

Man vergleiche etwa den allgemeinen Kommentar zum Stimulus MILCH-,KÄSEKELLER, der drei Bautypen (A, E, S) unterscheidet und sie bei den Einzelbelegen um weitere Informationen ergänzt (rot Pfeile).

AIS_Milchkeller

Alle diese Hinweise werden von VerbaAlpina in abfragbare Unterkonzepte verwandelt, wie die folgende Abbildung zeigt:

Milchkeller_Unterknzpt

So wird eine differenzierte semantische Analyse der erfassten Ausdrücke ebenso möglich wie eine onomasiologische Untersuchung der Konzeptbezeichnungen.

Die folgende Abbildung zeigt die Oberfläche, auf der gedrucktes Material transkribiert wird:

Transkript_tool

Das von VA entwickelte Transkriptionstool

Quellentyp (2): Gedruckte Karten auf Basis digitalisierter Daten

Bereits auf gedruckten Karten publiziertes Material, das jedoch im Original schon digital vorliegt, wurde so konvertiert und algorithmisch neu transkribiert, dass es in die VA-Datenbank eingelesen werden konnte. Dieses Verfahren wurde für den ALD-II und den ALTR praktiziert.

Quellentyp (3): Nicht publiziertes analoges Material

Noch nicht publiziertes Material anderer Projekte wird direkt aus deren Erhebungsbögen transkribiert bzw. digital übernommen; einen Auszug aus einem Erhebungsbogen des SAO veranschaulicht die direkte Übernahme, die mit dem selben Tool erfolgen kann, das für den Quellentyp (1) benutzt wird.

SAO_Milchkeller

Fragebuchauszug aus dem SAO – Typ: ‚Milchkammer‘ (Graphik: Stephan Lücke)

Die Datenbankeingabe der Quellentypen (1)-(3) geschieht nun zunächst mit Hilfe eines technischen Betacodes auf der Basis von ASCII-Zeichen und in einem zweiten Schritt mit einer automatischen Umsetzung der technischen Transkription in das Internationale Phonetische Alphabet (IPA), wie zwei Beispiele aus dem AIS und dem SAO zeigen:

AIS_Milchkeller_Transkription

(Graphik: Stephan Lücke)

SAO_Milchkeller_Transkription

(Graphik: Stephan Lücke)

Die Entsprechungen von Input (Quelle), Betacode und Output (Weboberfläche) werden in einer mittlerweile umfangreichen Codepage (CODEPAGE FÜR ALLE) dokumentiert.

Bei den Materialien, die bereits in digitaler Kodierung vorliegen, kann die Umsetzung in IPA im Idealfall durch entsprechende Programmierung automatisiert werden. Das war etwa im Fall der ALD-Daten möglich.

ALD_IPA

ALD-Kodierung ‚edelvais‘ (Graphik: Stephan Lücke)

Die Quellentypen (1)-(3) ergeben oft ein inkonsistentes und wenig ausgeglichenes Bild, da nicht alle Stimuli offenkundig mit derselben Präzision abgefragt wurden; extrem sind z.B. die Details, mit denen die Bezeichnungen des ALMSTALLS in der Erhebung des AIS spezifiziert wurden. Dem übergeordneten Prinzip der Quellentreue folgend, werden die unterschiedlichen Gewichtungen in der Dokumentation von VerbaAlpina erhalten (Link –> Konzept –> Gebäude –> Almstall), idealerweise können sie jedoch durch Neuerhebungen ausgeglichen oder wenigstens reduziert werden.    

Quellentyp (4): Neuerhebung über soziale Medien

Der Erhebung neuen Materials ist der ‚Funktionsbereich (4)‘ gewidmet (s.u.).

Multidimensionalität

Für ein umfassendes Verständnis der sprachhistorischen Prozesse ist es unbedingt wünschenswert, die sprachlichen Daten um andere, historisch relevante Daten zu ergänzen; das kann VerbaAlpina nur sehr bedingt leisten; immerhin sind manche relevante Daten in der ‚Interaktiven Karte‘ über den Filter ‚Außersprachliches‘ abrufbar. Der folgende Kartenausschnitt zeigt in synoptischer Zusammenschau einerseits die

          • Orte mit lateinischen Inschriften in der Provinz Noricum (mittelblauer Kreis);
          • Orte mit lateinischen Inschriften aus Raetien (lilafarbener Kreis);
          • aus der so genannten Tabula Peutingeriana überlieferten römische Ortsnamen an den viae publicae (pinkfarbener Kreis).

Andererseits wurden die Reflexe von drei lateinischen, genauer: zwei lateinischen und einem latinisierten aber mutmaßlich vorrömischen Basistypen aufgerufen:

          • Basistyp lat. casearia in der Bedeutung ‚Hütte‘ (‚C‘ im dunkelblauen Kreis) in Nord-, Süd- und besonders prägnant in Osttirol;
          • den Basistyp vorröm. baita in der Bedeutung ‚Haus‘ (‚B‘ im grünen Quadrat)  in Slowenien südlich von Ljubljana;
          • den Basistyp lat. cellarium in der Bedeutung ‚Hütte‘ (grünes Dreieck) in Oberösterreich.

Vgl. Karte Basistypen casearia, cellarium, baita

Die unübersehbare Kongruenz oder wenigstens Affinität der Distributionen dürfte kaum einem Zufall geschuldet sein.

Ein westalpines Beispiel

Ein Beispiel aus den romanischsprachigen Westalpen, d.h. hier grosso modo  aus dem Gebiet zwischen dem Rhônetal im Westen und dem Ossolatal im Osten, soll nun exemplarisch das sprachgeschichtliche Potential der webbasierten geolinguistischen Dokumantation zeigen.

Die lokalen Mundarten dieses Gebiets werden durch mehrere, teils ganz kleinräumige (CLAPie) und teils erst initial (APV, ALEPO) publizierte Sprachatlanten dokumentiert (vgl. Karte 1). Die Idiome dieses westalpinen Kontinuums werden von der Dialektologie in mehreren großräumigen Gruppen klassifiziert, die als ‚Okzitanisch‘, ‚Frankoprovenzalisch‘, ‚Ligurisch‘ und ‚Piemontesisch‘ bezeichnet werden. Die beiden zuerst genannten sind deutlich grenzüberschreitend – ganz im Gegensatz zu den entsprechenden Atlanten, die nur in Ausnahmefällen über die Staatsgrenzen hinausgehen : der ALF mit 8 Erhebungspunkten in Italien; der ALJA mit einem Erhebungspunkt in Italien und der APV mit je 2 Erhebungspunkten in Italien und in der Schweiz. Man beachte also, dass sowohl ALEPO als auch CLAPie und ALP im Wesentlichen okzitanische Mundarten erfassen, und dass ALJA und APV auf das Frankoprovenzalische zielen.

Es ist daher dringend wünschenswert, die Daten zusammenzuführen und synoptisch zu kartieren, wie es zumindest für spezifische Ausschnitte des Wortschatzes im Projekt VerbaAlpina geschieht:

westalpen_sprachatlanten

Karte 7: Geolinguistische Erschließung der Westalpen

Das Beispiel tomme/toma 

Für eine detaillierte Sprachgeschichtsschreibung kann es im Übrigen nützlich, ja notwendig sein, eine weit über den eigentlich fokussierten Ausschnitt des Kontinuums hinausreichende  räumliche Perspektive einzunehmen, so dass auch sekundär entstandene Migrationsvarietäten berücksichtigt werden können. Im Fall der Westalpen sind die süditalienischen und sizilianischen Kolonien  von großem Interesse. Dazu das folgende, nicht ganz unbekannte Beispiel: In den Westalpen ist der morpholexikalische Typ tomme verbreitet; er geht etymologisch auf gall. toma (vgl. FEW 13, 20 f.) zurück. Als generische Bezeichnung des Konzepts KÄSE ist er weitgehend synonym mit dem Typ fra. fromage/ita. formaggio.
Vgl. Karte morpho-lexikalischer Typ tomme / toma (rom. f.)

tomme

Karte 8: Verbreitung von tomma/tuma

madonie_sottile-2002

Karte 9: Die Madonie; das Erhebungsgebiet von Sottile 2002

Die transparente Etymologie von fromage/formaggioaus dem lateinischen Partizip formaticu(m) ‚geformt‘ zeigt, dass bei diesem Typ eine sekundäre taxonomische Bedeutungserweiterung von ‚geformter fester Käse‘ –> ‚Käse, allgemein‘ vorliegt. Weniger offensichtlich ist, dass sich die generische Bedeutung auch im Fall von tomme erst sekundär entwickelt zu haben scheint. Den Beweis liefert Sizilien, wo beide Typen mit komplementären Bedeutungen gut belegt sind: siz. tuma, das offensichtlich mit den galloitalischen Kolonisten im Gefolge der normannischen Eroberung gekommen ist, bezeichnete den ungeformten Frischkäse, während siz. fromaggiu ausschließlich und ganz im Sinne der Etymologie den geformten Käse bezeichnet, genauer: die in Formgefäßen gepresste Käsemasse unterschiedlicher Reifungsgrade:

tuma GA [‚tuma], GE → etn., AL → etn., CA → etn., IS. → etn., PO → etn. [‚tuma],[‚tumwa] f. prodotto caseoso che si ottiene rompendo la cagliata. 2. formaggio fresco non sottoposto a sterilizzazione nella scotta. 3. formaggio fresco, immerso direttamente nella scotta senza essere pressato nelle fiscelle.
Rotta la cagliata (→ quagghiata) nella → tina, la massa caseosa che precipita sul fondo e che viene raccolta (→ accampari, → arricampari) e sistemata a scolare nel → tavulìeri è ormai detta tuma. La tuma, poi, facoltativamente tagliata a cubetti, viene sistemata in fiscelle (→ ntumari, → ntumalora) perché possa scolare ulteriormente. Tuma è, inoltre, chiamato il formaggio che non viene sottoposta a sterilizzazione nella scotta (cfr. GE) e che generalmente viene consumato subito […]
Etn[otesto]. GE [a Geraci; TK] a tuma un ci â d’èssiri misa nâ → vasceɖɖa, si ssi parra di tuma.
Trad. «la ‚tuma‘ non va messa [raccolta] nelle fiscelle, se parliamo della ‚tuma‘ ». […]
Etn. IS [a Isnello, TK] a tuma jeni u prodottu che si ffa ppoi u → formàggiu
Trad. «La ‚tuma‘ è il prodotto [la pasta caseosa] che [con cui] si fa il formaggio». […]“ ((Sottile 2002, 168), 168)

In Sizilien haben sich also beide Typen in ihren ursprünglichen und spezifischen Bedeutungen erhalten, die im Fall von fromaggiu sogar noch motiviert ist. Ebenfalls noch motiviert ist der siz. Diminutiv tumazzu (vgl. Sottile 2002, 168), der für zwar feste und geformte, aber daher auch reduzierte, eher kleine Käselaibe steht (wie die Produkte, die heute in Frankreich und in der Westschweiz als tomme vermarktet werden).

Funktionsbereich (2): Kooperation

Neben den gleichsam historischen Sprachdaten, die in Sprachatlanten und Wörterbüchern dokumentiert sind, werden weitere, nicht selten aktuellere, Sprachdaten aus dem Alpenraum von Sprachforschern verschiedener akademischer Institutionen gesammelt, verwaltet und publiziert. Aus Sicht von VerbaAlpina spielen diese Daten in mehrfacher Weise eine bedeutende Rolle. Zum einen erlauben sie unter Umständen, Beleglücken onomasiologischer und/oder geographischer Art zu schließen, die die systematische Erfassung des Atlanten- und Wörterbuchmaterials zurückgelassen hat. Gerade wenn es sich um rezentes Sprachmaterial handelt, eröffnet sich daneben jedoch auch eine diachrone Perspektive, die durch den Vergleich mit dem historischen Material einen Blick auf Sprach- und unter Umständen auch auf einen dahinter stehenden Kulturwandel ermöglicht. Aus diesem Grund hat sich VerbaAlpina um den Abschluss von Kooperationsvereinbarungen mit einer ganzen Reihe von Projektpartnern bemüht. Die immer noch anwachsende Liste von Institutionen aber auch von Einzelpersonen ist auf dem VerbaAlpina-Portal einsehbar. Derzeit bestehen über 30 derartige Kooperationsvereinbarungen.

Zentraler Gegenstand der entsprechenden Vereinbarung ist der wechselseitige (!) Austausch von Sprachmaterial, d.h. VerbaAlpina stellt seinerseits seinen Projektpartnern das gesamte in der VerbaAlpina-Datenbank (VA_DB) zusammengetragene Material zur Verfügung. Wesentlicher Bestandteil der Kooperationsvereinbarung ist die allseitige Verpflichtung, bei der Verwendung von Sprachmaterial im Rahmen von Publikationen grundsätzlich die ursprüngliche Quelle der jeweiligen Daten zu nennen.

Durch die Vielzahl an Kooperationsvereinbarungen ist zunächst de iure, nach und nach jedoch auch de facto eine Vernetzung bislang voneinander getrennter Datenbestände entstanden, die es allen Beteiligten ermöglicht, die eigenen Daten in einem erweiterten Kontext zu sehen bzw. auch darzustellen. Zwar ist diese Art der Vernetzung aktuell, dem thematischen Focus von VerbaAlpina entsprechend, auf den Alpenraum beschränkt, eine Ausweitung über die Grenzen des Projekts und seinen geographischen Rahmen hinaus ist aber natürlich sehr sinnvoll und entsprechend wünschenswert. Aus diesem Grund wurde damit begonnen, Kooperationspartner auch außerhalb der Alpenregion zu suchen. Aktuell laufen Gespräche mit Vertretern des Atlante linguistico della Sicilia (ALS), und in einem kleinen Versuchsrahmen wurden auch schon Daten aus Sizilien in unser geolinguistisches System integriert. Es existiert auch bereits ein entsprechendes Portal, über die diese sizilianischen Daten in ganz ähnlicher Weise wie bei VerbaAlpina abgerufen, visualisiert und analysiert werden können:

tuma_als

Daten des Atlante Linguistico della Sicilia auf einer online-Karte (http://www.als-online.gwi.uni-muenchen.de/carta/)

Das Erscheinungsbild lässt deutlich erkennen, dass hier die selbe Technologie zum Einsatz kommt wie bei VerbaAlpina. Auch wenn man nicht von einem generischen System im engeren Sinne bzw. von modularer Verwendung sprechen kann, so ist die Realisierung eines solchen Ablegers, der sich im wesentlichen nur durch die geographische Verortung unterscheidet, aus rein technischer Sicht kein großes Problem. Und dadurch, dass die eigentlichen Daten im selben Backend und – ganz wesentlich – in einer kompatiblen Struktur verwaltet werden, sind problemlos regionsübergreifende Zusammenhänge erkenn- und darstellbar. Die sprachwissenschaftliche Relevanz dieser Möglichkeit wurde gerade vorhin illustriert am Beispiel der morpholexikalischen Typen Tomme/Toma und Fromage/formaggio.

Das Ziel besteht letztlich darin, eine geolinguistische Forschungsplattform zu etablieren, an der sich Sprachwissenschaftler unterschiedlichster Fachrichtungen und Interessen beteiligen können.

Für die Erzielung möglichst weitreichender Akzeptanz sind verschiedene Faktoren von Bedeutung. Einer dieser Faktoren wurde bereits genannt: Die allseitige Verpflichtung, bei der Verwendung fremden Materials grundsätzlich dessen ursprüngliche Herkunft zu nennen. Eine weitere wichtige Voraussetzung ist, dass einerseits Standards hinsichtlich Datenstrukturierung und Zeichenkodierung vereinbart und eingehalten werden, andererseits alle Beteiligten ein Maximum an individueller Freiheit hinsichtlich eben dieser Standards behalten. Was widersprüchlich klingt, lässt sich durch ein Schnittstellenmodell zumindest konzeptionell problemlos realisieren: Für jede Datenstruktur und Kodierung wird eine eigene Schnittstellenprozedur entworfen, die die Daten von der individuellen Gestalt in die definierten Standards überführt.

VerbaAlpina stellt jedem Partnerprojekt eine eigene relationale Datenbank auf einem MySQL-Server-Cluster zur Verfügung:

pva_datenbanken_20161122

Die Datenbanken der VerbaAlpina-Partner (PVA) auf dem MySQL-Cluster der ITG (Stand: 2016-11-22)

Die Projektpartner sind hinsichtlich der konkreten Ausgestaltung ihrer Datenbank im Hinblick auf Strukturierung und Zeichenkodierung vollkommen frei. Lediglich VerbaAlpina sowie sämtliche Kooperationspartner, die sich durch die Unterzeichnung der Kooperationsvereinbarung zur Einhaltung der genannten Regeln verpflichtet haben, besitzen Leserechte auf die Partnerdatenbanken. Nach außen hin ist der Zugang zu den Datenbanken passwortgeschützt, kann auf Wunsch der Eigentümer jedoch individuell oder für jedermann, vollständig oder in Teilen, freigegeben werden. Folgende Grafik gibt, unter anderem, einen Überblick über die Zugriffsrechte auf die einzelnen Module von VerbaAlpina. Mit Zugriffsrechten sind hier stets Leserechte, keine Schreibrechte, gemeint:

VA_Module_Daten_Gruppen

Die Daten der Projektpartner werden von der IT-Gruppe Geisteswissenschaften (ITG) der Ludwig-Maximilians-Universität (LMU) München in einer, z.T. an das Leibniz-Rechenzentrum (LRZ) angebundenen, professionellen IT-Infrastruktur gehalten. Die ITG garantiert hohe Ausfallsicherheit sowie, selbstverständlich, die regelmäßige Anfertigung von Backups. Auch die langfristige Archivierung der Daten der Projektpartner auf den Archivierungsservern des LRZ ist möglich.

Aus Sicht der Kooperationspartner könnte ein wichtiger Aspekt die institutionelle Absicherung der ITG sein. Es geschieht leider nicht selten, dass großangelegte Projekte, die über viele Jahre hinweg finanziert und betrieben wurden und die z.T. große Mengen an Material zusammengetragen haben, nach Ende der Finanzierung vor dem Aus stehen und es keine Möglichkeit gibt, die Projektdaten zu bewahren bzw. auch weiterhin zur Verfügung zu stellen. Dieses Problem ist weit verbreitet und nicht auf einzelne Länder beschränkt. Erst jüngst berichtete die Inhaberin der Humboldt-Professur für die Alte Geschichte des Nahen und Mittleren Ostens, Karen Radner (übrigens eine Österreicherin), von ihrer Erfahrung mit einer Datenbank mit Keilschrifttexten. Diese Datenbank war über Jahrzehnte hinweg an der Universität Helsinki erarbeitet worden. Nachdem der Verantwortliche Wissenschaftler in den Ruehstand gegangen war, habe sich an der Universität Helsinki niemand für diesen einzigartigen Datenbstand interessiert. Zum Glück konnte Karen Radner den Datenbestand übernehmen und das Projekt fortführen.

Der Umgang mit elektronischen Datenbeständen ist im Hinblick auf Nachhaltigkeit und Nachnutzbarkeit eine große Herausforderung für den gesamten Wissenschaftsbetrieb. Neben Fragen der Standardisierung von Kodierungen und Strukturierungen ist dabei ganz wesentlich die Frage, welche Institution(en) die Verantwortung für Bewahrung, Verfügbarkeit und Pflege dieser Art von Daten übernehmen sollen. Prädestiniert für diese Aufgabe erscheinen eigentlich die Bibliotheken, die seit Jahrhunderten für die Bewahrung von Wissen zuständig gewesen sind, und tatsächlich beschäftigen sich etliche Bibliotheken mit dieser Frage. Parallel entstehen andere Strukturen, die sich in ähnlicher Weise derselben Aufgabe widmen. Zu nennen wären hier z.B. sog. Repositorien wie etwa der Clarin-Verbund oder auch die D-Grid-Initiative, die es sich zur Aufgabe gemacht hat, „eine nachhaltige Grid-Infrastruktur in Deutschland aufbaut, um Informations- und Wissenstechnologien dezentral für die Wissenschaft nutzbar zu machen“.

In gewisser Weise symptomatisch ist, dass ausgerechnet die im Wikipedia-Artikel „D-Grid“ zitierten Portaladressen von D-Grid, http://www.d-grid.de/ und http://www.d-grid-ggmbh.de/, dort als „Offizielle Webpräsenz der D-Grid-Initiative“ bezeichnet, nicht mehr erreichbar sind (Aufruf am 22.11.2016, vormittag):

d-grid_dead_link

Natürlich kann dergleichen aus technischen Gründen immer wieder passieren, und auch wir sind davor nicht gefeit. Dass allerdings auch eine Google-Suche nach „D-Grid“ die offizielle Webpräsenz nicht (oder bestenfalls unter ferner liefen) zutage fördert, stimmt dann doch bedenklich. Schließlich handelt es sich um eine Initiative der Bundesrepublik Deutschland, die mit über 70 Millionen Euro gefördert worden ist (Quelle: https://de.wikipedia.org/wiki/D-Grid, 2016-11-22). Dieses Beispiel illustriert sehr schön, wie wichtig die dauerhafte institutionelle Verankerung einer verantwortlichen Institution in diesem Umfeld ist. Es ist allerdings, fairer Weise, darauf hinzuweisen, dass die Teilprojekte von D-Grid wie z.B. Textgrid nach wie vor im Internet erreichbar sind (https://textgrid.de/). Man kann nur hoffen, dass sie nicht in absehbarer Zeit ebenso verschwinden wie das Dach-Portal.

Die Lage ist unübersichtlich, und es ist schwer zu sagen, welche Institution sich für welche Art von Daten zuständig fühlt, wie die jeweiligen Perspektiven aussehen und, überhaupt, welche Lösung sich am Ende durchsetzen wird. Im Moment kann es daher nur darum gehen, eine geeignete Institution zu finden, die erstens bereit und dazu in der Lage ist, Daten über einen längeren Zeitraum sachgerechet zu speichern, verfügbar zu halten und zu pflegen, und die überdies über eine unbefristete Existenzperspektive besitzt. Diese Kriterien erfüllt z.B. die ITG. Sie ist eine zentrale wissenschaftliche Einrichtung der LMU, zuständig für die sechs geisteswissenschaftlichen Fakultäten, und ausgestattet mit derzeit, jeweils unbefristeten, vier wissenschaftlichen und drei technischen Personalstellen. Nicht zuletzt aus diesem Grund kann VerbaAlpina mit seiner Anbindung an die ITG seinen Partnern einen wichtigen Dienst leisten.

Funktionsbereich (3): Publikation

Wo immer Webtechnologie zum Einsatz kommt, verliert der Begriff der ‘Publikation’ seine Selbstverständlichkeit. Strenggenommen sind schon ein offener Quellcode (‚open source‘) und die Datendokumentation im Internet Publikationsformen, ungeachtet der Tatsache, dass sie nicht immer dazugezählt werden. Darüber hinaus versteht sich VerbaAlpina aber auch als Instrument zur Veröffentlichung von projektbezogenen Texten. Dafür sind Im Wesentlichen drei Formate vorgesehen.

  • Theoretisch und methodologisch zentrale Begriffe und Probleme sowie Hinweise zur Funktionalität der Forschungsumgebung werden in meist konziser, gelegentlich auch etwas weiter ausholender Weise unter dem Reiter Methodologie abgelegt.
  • Ausführlichere analytische Untersuchungen von Projektergebnissen oder theoretische bzw. methodologische Diskussion können unter Projektpublikationen abgelegt werden.
  • Kommentare zu einzelnen sprachlichen Typen werden in der Kartenlegende durch einen ‚i‘-Button geöffnet; sie können dort auch sehr leicht durch Projektmitarbeiter oder Externe eingestellt werden (vgl. z.B. den Kommentar zum Basistyp *pinguia in der interaktiven Karte).

Da Webpublikationen im genannten Sinn leicht modifizierbar sind und vor allem im Fall von aktiven Projekten auch kontinuierlich modifiziert werden (sollten), ist es unerlässlich eine verlässliche Zitierweise zu ermöglichen, die in ihrer Verlässlichkeit dem Standard gedruckter Literatur entspricht. Der Projektinhalt von VerbaAlpina wird daher von Zeit zu Zeit in stabilen Zitierversionen ‚eingefroren‘, die von der jeweils aktuellen und sich verändernden Arbeitsversion unterschieden werden müssen. Jedem Beitrag zur Projekt Methodologie ist daher mit einem entsprechenden Zitierhinweis versehen, der die jeweilig Version automatisch präzisiert; im folgenden Beispiel handelt es sich also um den Beitrag ‚Typisierung‘ der Version 16/1:

zitierweise

Hinweis zur Zitierweise

Funktionsbereich (4): Datenerhebung durch Crowdsourcing

Außer durch die Datenbestände von Projektpartnern können die bereits angesprochenen Inkonsistenzen hinsichtlich der onomasiologischen oder geographischen Abdeckung auch durch das sog. Crowdsourcing ausgeglichen werden. Mit Crowdsourcing ist laut Wikipedia „die Auslagerung traditionell interner Teilaufgaben an eine Gruppe freiwilliger User, z. B. über das Internet“ (Quelle) gemeint und wird dort als Anlehnung an den Begriff „Outsourcing“ bezeichnet. Die Funktion des Crowdsourcing im Rahmen von VerbaAlpina ist jedoch vielleicht besser durch die Kernbedeutung des Wortes „source“ beschrieben. Die Nutzer des Internets sollen als Daten-QUELLE dienen und ihre Kenntnisse der Dialekte des Alpenraums in den Datenbestand von VerbaAlpina einbringen.

In diesem Zusammenhang stellen sich die folgenden Probleme bzw. Herausforderungen:

  • Kontaktherstellung zu geeigneten „Crowdern“ und evtl. Herstellung einer Bindung ans Projekt
    • Kontaktherstellung: Kontakt zu einschlägigen Institutionen im Alpenraum. Hier eine aktuelle Liste von Veranstaltungen, auf denen VerbaAlpina beworben werden könnte bzw. wird:

1) Bezirksbäuerinnentag (Südtiroler Bäuerinnenorganisation), 28.01.2017, Bozen
2) Alpsennenkurs (AVA, Alpwirtschaftlicher Verein im Allgäu e.V.), 26.04.2017, Immenstadt
3) Österreichische Almwirtschaftstagung (Steirischer Almwirtschaftsverein), 28.-30.06.2017, Krieglach (Dachorganisation: Almwirtschaft Österreich)
4) Deutscher Bauerntag (Deutscher Bauernverband), 28.-29.06.2017, Ort noch unbekannt
5) Käseolympiade (Tourismusverband Galtür), 23.09.2017, Galtür
6) Oberbayerischer Almbauerntag (AVO, Almwirtschaftlicher Verein Oberbayern), 7./8.10.2017, Samerberg

Adressenliste mit derzeit rund 4000 Einzelpersonen (darunter auch 150 Almen; Tabelle `crowdkontakte` in  VA_DB) und Institutionen im ganzen Alpenraum (A, D, F, I, SLO)

  • Flyer:flyercs_entwurf
  • Präsenz in den Medien (Zeitungen, Hörfunk)
  • Präsenz in sozialen Netzwerken (z.B. Facebook):

va_facebook

Ein- bis zweimal im Monat eine Meldung, z.B. eine spezielle, vielleicht nicht so bekannte Bezeichnung für ein bestimmtes Konzept. Evtl. auch interessante Abbildungen aus der Lebenswelt der Almen.

Bindung: Möglichkeit, sich zu registrieren (Motivation: Crowder kann sehen, wieviel er bislang beigetragen hat, auch im Vergleich zu anderen)

crowdsourcing_app_screenshot1

Die Crowdsourcing-App von VerbaAlpina

Die Crowdsourcing-App von VerbaAlpina

  • Steuerung der Datenerhebung (um onomasiologische und/oder geographische Lücken gezielt schließen zu können)
    • Priorisierung besonders schlecht belegter KONZEPTE bei der Auswahl, die dem „Crowder“ präsentiert wird
    • Kartierung, die, bezogen auf definierte „Mittelräume“ (sog. NUTS-3-Regionen), die Anzahl in VerbaAlpina bereits vorhandener Belege, durch Farbsättigung wiedergibt.
  • Attraktive Gestaltung der Schnittstelle und technische Zuverlässigkeit zur Steigerung der Akzeptanz: Möglichst einfach und übersichtlich; keine App, sondern Webseite mit „responsivem“ Layout, die auch die komfortable Nutzung auf Smartphones erlaubt.
  • Orthographie und Typisierung
    • Fokus auf morphologischen Typen; Phonetik spielt keine bzw. untergeordnete Rolle
    • manuelle Typisierung dennoch nicht vermeidbar
  • Validierung der eingehobenen Daten
    • Prinzip: „Einmal ist keinmal, zweimal ist immer“ – Wenn zwei von einander unabhängige Quellen (≙ Crowder) dasselbe behaupten, dann besteht Sicherheit; Visualisierungsmöglichkeit:relevanzindex
    • Einbindung von „Kompetenztests“ nach folgendem Muster:

Unbenannt

  • Registrierung
  • Möglichkeit der Kommentierung durch registrierte Crowder und Wissenschaftler gleichermaßen

Funktionsbereich (5): virtuelles Forschungslabor