iframe-test (Zitieren)
(0 Wörter)
<?xml version="1.0" encoding="UTF-8"?> <resource xmlns="http://datacite.org/schema/kernel-4" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://datacite.org/schema/kernel-4 http://schema.datacite.org/meta/kernel-4/metadata.xsd"> <identifier identifierType="DOI">http://dx.doi.org/10.5282/verba-alpina</identifier> <titles> <title titleType="Title">VerbaAlpina</title> <title titleType="Subtitle"> Der alpine Kulturraum im Spiegel seiner Mehrsprachigkeit</title> </titles> <creators> <creator> <creatorName>Thomas Krefeld</creatorName> <givenName>Thomas</givenName> <familyName>Krefeld</familyName> <affiliation>Ludwig-Maximilians-Universität München, Institut für Romanische Philologie</affiliation> </creator> <creator> <creatorName>Stephan Lücke</creatorName> <givenName>Stephan</givenName> <familyName>Lücke</familyName> <affiliation>Ludwig-Maximilians-Universität München, IT-Gruppe Geisteswissenschaften</affiliation> </creator> </creators> <publisher>Institut für Romanische Philologie, IT-Gruppe Geisteswissenschaften</publisher> <publicationYear>2014-</publicationYear> <resourceType resourceTypeGeneral="Collection">Online-Portal</resourceType> <subjects> <subject z.B.: GND="DDC" z.B. bei GND: http://d-nb.info/gnd/="https://d-nb.info/1052700705/34" z.B. bei GND-Nummer: 118544233="400">Sprache</subject> <subject z.B.: GND="DDC" z.B. bei GND: http://d-nb.info/gnd/="https://d-nb.info/1052700705/34" z.B. bei GND-Nummer: 118544233="000">Informatik</subject> </subjects> <dates> <date dateType="Created">2014</date> </dates> <relatedIdentifiers> <relatedIdentifier relatedIdentifierType="URL">https://www.verba-alpina.gwi.uni-muenchen.de/</relatedIdentifier> </relatedIdentifiers> <descriptions> <description descriptionType="Abstract">Das Projekt erschließt den einzelsprachlich und dialektal stark fragmentierten Alpenraum in seiner kultur- und sprachgeschichtlichen Zusammengehörigkeit selektiv und analytisch und überwindet dadurch die traditionelle Beschränkung auf im wesentlichen aktuelle politische Einheiten (Nationalstaaten). Die ausgewählten Sachgebiete betreffen die Natur, die Kulturgeschichte und die kulturelle Gegenwart. Dazu wird unter Verwendung zeitgemäßer Medientechnologie (Datenbank, Georeferenzierung, Internet, social software) eine umfassende, einzelsprachübergreifende Forschungsumgebung mit mehreren Funktionsbereichen aufgebaut: Sie dient der Dokumentation (interaktive georeferenzierte Kartographie), der Datenerhebung (durch social software), der Publikation und ihrer eigenen kollaborativen Weiterentwicklung; damit wird ein Modell für die Überführung der Geolinguistik in die digital humanities entwickelt. Die leitende Absicht besteht darin, bereits vorliegende (und teils schlecht zugängliche) Sprachatlas- und Wörterbuchdaten in vervollständigter, gebündelter, mehrdimensional aufbereiteter und sprachgeschichtlich analysierter Form zugänglich zu machen. Durch die Vervollständigung (Neuerhebung mit Hilfe von social software) werden der ungleichmäßige Belegraster der Datenaltbestände ausgeglichen und ihre semantischen und onomasiologischen Inkonsistenzen überwunden. So integriert das Projekt die beiden dominanten, methodologisch alternativen Ansätze der digitalen Geolinguistik, nämlich die an der sprachgeographischen Tradition orientierte Dokumentation einerseits (vgl. ALD-I, ALD-II) und die Neuerhebung durch Crowdsourcing andererseits (vgl. AdA, ALIQUOT) in einem umfassenden Rahmen. VerbaAlpina wird durch zahlreiche Kooperationspartner unterstützt. Das Projekt wendet sich in erster Linie an die wissenschaftliche Öffentlichkeit; entsprechend fachlich sind die erklärenden Texte unter dem Reiter METHODOLOGIE angelegt. Vor allem die zentrale Funktion unter dem Reiter INTERAKTIVE KARTE ist jedoch für jedermann leicht zugänglich. Interessierten Laien wird daher empfohlen, sich zunächst mit diesem Angebot vertraut zu machen: Die Suchfilter sollten sich trotz der vielleicht ungewohnten Terminologie beim Ausprobieren weitgehend selbst erklären.</description> </descriptions> <geoLocations> <geoLocation> <geoLocationPlace>Alpenraum</geoLocationPlace> <geoLocationBox> <westBoundLongitude>5.2</westBoundLongitude> <eastBoundLongitude>16.9</eastBoundLongitude> <southBoundLatitude>43.5</southBoundLatitude> <northBoundLatitude>48</northBoundLatitude> </geoLocationBox> </geoLocation> </geoLocations> <Die Sprache, die bei Ihrer Ressource überwiegt (vorzugsweise nach ISO 639-1), z.B.: de>German, Italian, French, Slowenian, Rumantsch-Grischun</Die Sprache, die bei Ihrer Ressource überwiegt (vorzugsweise nach ISO 639-1), z.B.: de> <sizes> <size>10 GB</size> </sizes> <formats> <format>SQL, CSV, HTML, PHP, JPG, ...</format> </formats> <version>18/1</version> <rightsList> <rights Ergänzend dazu empfiehlt sich hier eine Verlinkung auf die entsprechende Rechte-Seite, z.B.: http://creativecommons.org/licenses/by/3.0/de="http://creativecommons.org/licenses/by-sa/3.0/de/">CC BY-SA 3.0 DE</rights> </rightsList> <fundingReferences> <fundingReference> <funderName>DFG</funderName> <funderIdentifier funderIdentifierType="GRID">grid.424150.6</funderIdentifier> <awardNumber Bei der DFG z.B.: http://gepris.dfg.de/gepris/projekt/388226599="http://gepris.dfg.de/gepris/projekt/253900505">253900505</awardNumber> <awardTitle>Langfristvorhaben</awardTitle> </fundingReference> </fundingReferences> </resource>
Text der Videos von SL:
Video SL 1
Der Mehrwert von VerbaAlpina besteht in der vollständigen und konsequenten Umstellung der Dialektologie auf Digitalität und Webtechnologie. Sogenanntes Crowdsourcing im Internet ermöglicht uns, von Dialektsprechern im Alpenraum neue Dialektwörter zu sammeln. Ihr wollt mitmachen? Dann geht auf unsere Website!
Video SL 2
Die Idee zu VerbaAlpina? Sie kam uns auf einer Tour auf die Zugspitze. Wir hatten uns vorher bereits jahrzehntelang mit Dialektologie beschäftigt, wir wussten, dass die Sprachwissenschaft den Alpenraum nie als Gesamtheit betrachtet hat, sondern nur in seiner politischen, sprachlichen und kulturellen Zersplitterung. Das wollten wir ändern.
Diese Präsentation wurde für den Workshop Neue Wege der romanischen Geolinguistik Vers. 2.0 (2021) verfasst (Schneefernerhaus, 4.-5.11.2021). Für die Einladung mitzumachen danken wir Joachim Steffen (Augsburg). Eine ausformulierte Version des Beitrags ist unter folgendem Link verfügbar: https://www.verba-alpina.gwi.uni-muenchen.de/?p=17197 |
I. Vorgeschichte: Drei Generationen von Sprachatlanten (🎙 TK)
II. Unsere 8 Prinzipien für die dritte Generation:
1. Strukturierte digitale Daten als Arbeitsgrundlage (🎙 SL)
2. Bezug der sprachlichen Daten zu außersprachlichen Normdaten (🎙 TK)
3. Forschungsdatenmanagement (FDM) (🎙 SL)
4. Adressierung und interaktive Einbindung eines breiten Publikums (🎙 TK)
5. Offene und dynamische Datenbestände (🎙 SL)
6. Virtuelle Kartographie auf georeferenzierter Grundlage (🎙 TK)
7. Möglicher Einbezug nicht sprachlicher Kontextdaten (🎙 SL)
8. Überwindung der Gattungsgrenzen (🎙 TK)
Appendix
Vorgestellte Prinzipien Ergebnis von 16 Jahren gemeinsamer Arbeit an vier gemeinsamen geolinguistischen Projekten:
Unterschiede ...
Drei Generationen von Sprachatlanten:
Erste Generation:
Zweite Generation:
Dritte Generation:
2. Generation | 3. Generation | |
AsiCa | → | Asica 2.0 |
ASD | ||
Metropolitalia | ||
VerbaAlpina | ||
geolinguistische Projekte der Autoren |
Grad der Digitalisierung |
Etikett., Erweit., Verknüpf. | Daten- export |
|||
D3 | Tabelle | db csv |
strukturierter elektronischer Text | → | XML SQL CSV txt ... HTML PS Papier |
D2 ↑ | Textdatei | txt doc |
linearisierter elektronischer Text | ← praat | |
D1 ↑ | Scan | jpg | binärer Code | wav, mp3 | |
D0 ↑ | Papier | Schrift/Bild | Audio |
Daten analog | Daten digital | Daten digital und strukturiert | ||||||||
![]() |
tˈeːʥɑ |
|
Beleg: AIS 1192 (LA CASCINA DI MONTAGNA), Ort 5 (Ems) (VA-Beleg S293; Discover@UB)
strukturiert | ASLEF-Tafeln | VerbaAlpina |
nicht/teil- strukturiert | VALTS | Idiotikon, WBOe |
analog | digital |
Tafel 45 des ASLEF: unter jedem Konzept eine Liste der ortstypischen Bezeichnungen; vor den Einzelbelegen die Kennzahlen der jeweiligen Ortschaften.
Beispiel für ein Wörterbuch: Schweizerdeutsches Idiotikon
Ein positives Beispiel ist das Bibl:WBOe.
Digitalisierung der analogen Handzettel durch das Projekt WBOE. Nach einer Zwischenstation mit TUSTEP liegt das Material jetzt im XML-Format vor.
Typisierungstool (Link)
Das VerbaAlpina-Tool zur Typisierung von Daten aus analogen Quellen. Das Beispiel zeigt im oberen markierten Feld eine Reihe von transkribierten Einzelbelegen der AIS-Karte 1218_1, "IL SIERO DEL FORMAGGIO; IL SIERO DELLA RICOTTA", die dem lexikallischen Typ lacciata (f.) (roa.) zugeordnet werden können.
Ortsnetze des DRG, GPSR und VSI (interaktives Original)
Onomasiologische Konzeptsuche in VA
Portal "Discover" der UB der LMU. Das System erlaubt u. a. die Erzeugung von DOIs, die auf einzelne morpholexikalische Typen von VerbaAlpina verweisen.
Beispiel für einen Tooltip (interaktives Original)
mehrfache aktive Einbindung der Nutzer:
Verfügbare VA-Versionen
Optionale Kartenoberflächen in VA (interaktives Original)
Optionale Visualisierung mit Referenz auf die Gemeindeflächen (links, interaktives Original) und die NUTS 3-Regionen (rechts, interaktives Original)
Über geonames.org importierte Informationen (Beispiel Garmisch-Partenkirchen – Quelle)
Erwähnung von Partenkirchen (Tarteno ⇒ <P>arteno) auf der Tabula Peutingeriana (interaktives Original)
Dialogfelder zur Formulierung individueller Abfragen. Ein Tooltip präsentiert die in der Tabelle vorhandenen Felder samt deren Datentypen.
Kartierung von Einzelbelegen, die dem lexikalischen Typen "Butter" zugeordnet sind und mit einem P beginnen. Ein Rechtsklick auf den Legendeneintrag ermöglicht die Modifizierung der SQL-Abfrage (Dialogfeld rechts).
Verbreitung des Typs chaschöl (< lat. caseolus) im Spiegel aggregierter Quellen, interaktives Original
Der folgende Vortrag wurde im Rahmen der Vorlesung "Einblicke in digitale sprachwissenschaftliche Forschungsprojekte" des BA-Studiengangs "Digital Humanities in den Sprachwissenschaften" am 23.05.2022 gehalten.
Bezeichnung | KONZEPT (=BEGRIFF) |
Butter ⇒ | ![]() |
Geovariation von malga (roa. f.) (https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=xxx&tk=3466)
Bezeichnung | Konzept | Georeferenz | Chronoreferenz | Quelle |
painch | BUTTER | Ardez (10.1399 46.8577) | 1928-1940 | AIS 1207, 7 |
Anke | BUTTER | Malters (8.2514 47.0124) | 1962-2003 | SDS V 179, LU24 |
... |
AIS-Karte 1218 "Il siero del formaggio" (MOLKE; Navigais; vgl. VA-Karte; lita, leyto/u ) ⇒ letie (roa f.)). Der AIS präsentiert unmittelbare Äußerungen eines Sprechers in phonetischer Transkription
Eintrag Teie(n) im Schweizerdeutschen Idiotikon. GrMu. = Mutten, GrKl = Klosters, GrD = Davos, GrChur. = Churwalden. Das Idiotikon dokumentiert typisierte Belege, zeigt also keine unmittelbaren Äußerungen eines Sprechers
tˈeːʥɑ
tˈeːɑ
tˈiːʥɑ
tˈiːzɑ
tˈiːdzɑ
tˈeːa
tˈeːjɑ
tˈeːj̆ɑ
tˈeːɑ###tˈeːɑ dɑ ˈalp
tˈeaɜ
tˈea
tˈeʤa
tˈeːaɑ˺
tˈeːaɜ
tiˈeʒa###tiˈeʒa da mont
teˈaθ
tˈej̆###tˈej̆ da la bˈoːʤɑ
tˈɛːza
tˈeʒɑ
tˈeːzɛ
tˈeːʥɑs͉###mˈidaː tˈeːʥɑs͉
te̞ˈaθ
Tegia###Tegia d'alp
Tegia
teggia
Tieja
a) Vorteile von Digitalisierung und Vernetzung
b) Nachteile:
c) Antworten von VerbaAlpina auf die Nachteile bzw. Herausforderungen der Digitalität
Lücke, S. (2020): s.v. “API”, in: VerbaAlpina-de 21/2 (Erstellt: 19/1, letzte Änderung: 20/1), Methodologie, https://doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D493%26db%3D212%26letter%3DA%23138
d) Bislang ungelöste Probleme von Digitalisierung und Vernetzung
Resumée: Digitalisierung in den Geisteswissenschaften eher eine – noch längst nicht abgeschlossene – Evolution als eine Revolution.
Ich danke für die Aufmerksamkeit!
***
Die Unicode-Blöcke mit phonetischen Zeichen (Link)
Μῆνιν ἄειδε, θεά, Πηληϊάδεω Ἀχιλῆος,
οὐλομένην, ἣ μυρί’ Ἀχαιοῖς ἄλγε’ ἔθηκεν,
⇓
*MH=NIN A)/EIDE, QEA/, *PHLHI+A/DEW *)AXILH=OS,
OU)LOME/NHN, H(\ MURI/' *)AXAIOI=S A)/LGE' E)/QHKEN,
Dialogfeld des kommerziellen OCR-Programms Abbyy Finereader. Zuweisung des Theta zur HTML-Entity θ (03B8 ist der entsprechende Unicode Codepoint)
Diese Vorstellung wird gemeinhin auf Aristoteles zurückgeführt. Exakt so hat er es nicht formuliert, den Gedanken kann man aber u. a. aus Metaphysik VIII 6, 1 (1045a) herauslesen, wo es heißt: “Von allem nämlich, was aus mehreren Teilen besteht und aufs Ganze gesehen nicht nur wie ein ungeordneter Haufen ist, sondern etwas Ganzes jenseits der Einzelteile darstellt, gibt es ein Verbindendes. Denn auch in den menschlichen Körpern wird die integrale Gesamtheit entweder durch ein Gelenk oder durch eine kohesive Substanz oder durch etwas anderes derartiges erzeugt.” (trad. Stephan Lücke) ↩
Vortrag, gehalten von Thomas Krefeld und Stephan Lücke am 19.05.2021 im Rahmen der von Prof. Dr. Christine Haug, Dr. Marcel Schellong im Sommersemester 2021 veranstalteten "Vortragsreihe Forschungspotential der Digital Humanities in der Buch- und Literaturwissenschaft" (Programm)
4. Theorie der Forschungskommunikation in virtueller Umgebung
5. Herausforderungen der Virtualität/Digitalität für die Forschungskommunikation
Graphik 5 – Link
Graphik 6 – Link
Graphik 7 – Beispiel Januar 2021 (Facebook) Link
Graphik 8 – Beispiel April-Mai 2018 (HP BR, Bayern 2) Link
Graphik 10 – Link
ZIEL: Nutzung der Vorteile der Digitalität *ohne* Verlust der Vorteile des Buches
Graphik 15 – Einbindung externer Normdaten (Geonames, Wikidata-QIDs, URLs von Referenzwörterbüchern) – Link
Graphik 17 – Suchportal des UB-Forschungsdatenrepositoriums (Link)
Graphik 18 – Ad-Hoc-Erzeugung einer DOI für einen VA-Datensatz auf Discover@UB (Link)
Graphik 20 – Fehlermeldung von Google auf der frühesten bei archive.org archivierten VerbaAlpina-Version
Wir danken für Ihre Aufmerksamkeit!
***
Die Überlegungen dieses Kapitels gehen im Kern auf Krefeld 2011 zurück; sie flossen also bereits in die Konzeption von VerbaAlpina ein und wurden im Zuge der Projektarbeit kontinuierlich elaboriert. ↩
Der Ausdruck wird oft enger gefasst und im Sinne von "externer Forschungskommunikation" verwandt; dann bezeichnet er ausschließlich die divulgative "Kommunikation von Forschung über Fachgrenzen hinaus", so z. B. von Knöchelmann 2021; diese Verwendung wird der medialen Grundlage von Kommunikation und ihrer radikalen Veränderung nicht gerecht. Webbasierte Kommunikation muss gerade nicht trennscharf zwischen Laien- und Fachpublikum unterscheiden, sondern kann sich gleichermaßen – wenn auch nicht in identischer Weise – sowohl an das eine wie an das andere wenden. ↩
Dieser Vortrag wurde für den Workshop Datensicherung im Forschungsprozess
geschrieben, der vom FID Romanistik in Verbindung mit der AG Digitale Romanistik organisiert und online durchgeführt wurde (Bonn, 26./27.11.2020)
Unser Beitrag zielt auf sehr grundsätzliche Fragen; er ist jedoch aus der ganz konkreten Arbeit am geolinguistischen Projekt VerbaAlpina entstanden, genauer gesagt: aus der kontinuierlichen methodologischen Reflexion, oder: aus der notwendigen theoretischen Selbstvergewisserung der mit dem Projekt befassten sieben Wissenschaftler, deren Arbeitskraft je zur Hälfte in die Informatik und in die Sprachwissenschaft investiert wird. Das Langzeitvorhaben der DFG, das seit 2014 gefördert wird, hat jedoch eine mehrjährige Vorgeschichte in Gestalt kleiner Projekte, von den zwei genannt werden sollen, nämlich:
Das zuerst genannte Projekt markiert den für uns ebenso grundlegenden wie radikalen Übergang von traditioneller, auf Printpublikation zielender Arbeit zum systematischen und kategorischen Einsatz von Webtechnologie; denn der ursprünglich für den Druck entworfene AsiCa wurde im Verlauf seiner Durchführung methodologisch rekonzipiert und vom dialektologischen Kopf auf die informationstechnischen Füße gestellt. – Seitdem läuft er übrigens, auch noch in der ursprünglichen, von Stephan Lücke entwickelten Version, unermüdlich im Web.
Es waren also bereits vor dem Projektantrag Erfahrungen entstanden, und es wurde eine klare Perspektive fixiert, die bis heute gilt: Anvisiert wird die systematische Umstellung dieser linguistischen Subsdisziplin auf Webtechnologie – von Digital Humanities war zu der Zeit noch nicht die Rede und das Web 2.0 nahm just in diesen Jahren Gestalt an. So war es unvermeidlich, dass sich der Horizont von Projekt zu Projekt substantiell erweiterte und dass mit VerbaAlpina eine umfassende virtuelle Forschungsumgebung mit komplementären Funktionalitäten eingerichtet werden konnte. Im Rückblick ist man erstaunt, mit welcher Selbstverständlichkeit sich die mediale Horizonterweiterung in unserem Forschungsprozess abbildet, denn eigentlich war diese Entwicklung alles andere als ‘selbstverständlich’ und ohne die institutionellen Rahmenbedingungen an der LMU wäre es nicht dazugekommen. So ist man geneigt sich die Augen zu reiben und schlicht festzuhalten: "Yes, we could".
Die methodologisch wichtigste Erfahrung war – und ist – wohl die permanente Herausforderung mit den ständig neuen Optionen der äußerst dynamischen Digital Humanities umzugehen. Es wurde daher das Prinzip festgeschrieben, alle konzeptionellen Grundbegriffe und ihre Entwicklung nicht nur umzusetzen, sondern auch in diskursiver Gestalt festzuhalten und zugänglich zu machen; diese oft sehr prägnanten und nicht sehr ausführlichen Texte finden sich unter dem Reiter Methodologie. Die Projektarbeit verfestigt sich also nicht nur in einem technischen und maschinenlesbaren Speicher sondern auch in einem menschlichen und menschenlesbaren Gedächtnis.
VerbaAlpina untersucht die romanischen, germanischen und slawischen Dialekte des Alpenraums; in ausgewählten Gegenstandsbereichen wird:
Die Visualisierung erfolgt kartographisch. Es müssen also zahlreiche Quellen zusammengefügt werden, wie diese Auswahl zeigt. Die Quellen sind ganz verschiedenartig; den größten Teil bilden Sprachatlanten, wie z.B. der AIS, aber teils sehr umfangreiche Wörterbücher, wie z.B. der DRG kommen hinzu und ergänzen sich in der Dokumentation (vgl. diesen Ausschnitt). Bereichert werden diese wissenschaftlichen Quellen durch Crowd-Daten (vgl. die aktuelle Statistik). Unterschiedlich sind jedoch nicht nur die Quellengattungen, sondern auch ihre medialen Repräsentationen, denn manche liegen in gedruckter Form, andere in digitalen Formaten, wie z.B. der ALD-I und dritte in (noch) nicht publizierter, handschriftlicher Dokumentation vor, wie teilweise der SAO. Im übrigen wurden ganz unterschiedliche Transkriptions- und Schreibweisen verwandt. Es mussten also von Anfang an Prozeduren entwickelt werden, um die Daten in transparenter Weise in ein gemeinsames Format zu bringen.
Die lexikographische Typisierung, d.h. die Zusammenfassung von dialektalen Varianten unter gemeinsamen Nennformen (Lemmata), erfolgt von Hand; sie wird jedoch durch den systematischen Einbezug von – wenn irgend möglich – online verfügbaren Referenzwörterbüchern abgesichert, deren Lemmata einzeln angesprochen werden können, wie dieses Beispiel zeigt.
Eine Implementierung der technischen Prozeduren zur Verknüpfung und Aggregation von Daten aus unterschiedlichen Beständen setzt jedoch das Einverständnis der Wissenschaftler*innen voraus, die für die eingebundenen Daten zuständig sind; auch das ist keineswegs selbstverständlich, so dass Strategien gefordert sind, um diejenigen, die über relevante Daten verfügen von geeigneten Lizenzierungsbedingungen (hier: CC BY SA) zu überzeugen und durch formale Vereinbarungen (vgl. Kooperation) zu Partnern zu machen (vgl. die Liste VA-Partner); diese Bemühungen sind uns nicht immer, aber doch meistens gelungen. Daraus ist ein dichtes Netz kollaborativer Routinen hervorgegangen, das auch von außen als solches wahrgenommen wird, denn mittlerweile kommen bislang nicht teilnehmende Projekte mit Kooperationsanfragen auf uns zu, zuletzt das Dialektologische Informationssystem für Bayerisch-Schwaben (DIBS).
Man kann festhalten, dass die inhaltlichen Anforderungen der Geolinguistik eine grundsätzlich offene – das heißt potentiell über das initiale Projekt hinausweisende – Forschungsumgebung nahelegen, so bald man sich vom Druck als Medium der Publikation verabschiedet.
Es wird in den geisteswissenschaftlichen Disziplinen zu wenig reflektiert, dass sich der methodologische Status der Medien im Forschungsprozess von Grund auf ändert, sobald man die Perspektive der Digital Humanities einnimmt: Traditionelle Forschungspraxis zielt auf den Druck, und die gedruckte Publikation schließt den vorhergehenden Forschungsprozess definitiv ab; das Medium des Druck ist gewissermaßen der Tod des Projekts, denn alle Daten (wenn man davon sprechen darf), die für die Produktion des Buchs gebraucht wurden, sind dem direkten Zugriff nach dem Druck entzogen; sie können keinerlei Produktivität in anderen Projekten erlangen und im Nachhinein allenfalls häppchenweise zitiert werden.
In webbasierter Forschungsarbeit ist das Medium – die mediale Zugänglichkeit – dagegen das Lebenselixir der Daten: Sie leben solange, wie menschliche oder maschinelle Nutzer auf sie zurückgreifen; Phasen ohne Zugriff versetzen sie nur in Schlaf, aus dem sie jederzeit wieder geweckt werden können. Die Medien sind so zu einer fundamentalen Komponente des Forschungsprozesses geworden; Forschungsarbeit ist jenseits der Medien gar nicht mehr möglich. Im Fall von VerbaAlpina wurden die Konzeption und Implementierung einer entsprechenden webbasierten Forschungsumgebung seit Arbeitsbeginn aus dem Projekt selbst heraus systematisch und erfolgreich umgesetzt. De facto kam VerbaAlpina damit bereits den erfüllbaren Forderungen nach, die erst im Laufe der Projektarbeit durch eine wichtige Initiative unter dem praktischen, aber unscharfen Akronym FAIR auf einen gemeinsamen Nenner gebracht wurden. Einschränkend muss man allerdings sofort hinzusetzen, dass diejenigen, die auf FAIRness verpflichtet werden, die Projektverantwortlichen, damit auch heillos – und unheilbar – überfordert sind, denn unausgesprochene Voraussetzungen dieser Forderungen können sie gar nicht erfüllen: Ihrem eigentlichen, das heißt medial angemessenen Zweck kann eine solche Umgebung nämlich erst dann gerecht werden, wenn sie auch noch durch Forscher ‘begangen’ und weiterentwickelt werden kann, die mit uns, d.h. mit den Wissenschaftlern, die ihre ursprüngliche Konzeption und Einrichtung in Werk gesetzt haben, gar nichts mehr zu tun haben. Es braucht ja keine visionäre Begabung, um den großen Mehrwert zu sehen, der sich ergibt, wenn über die Alpen hinaus die zahlreichen Sprachatlanten und Dialektwörterbücher des zusammenhängenden europäischen Sprachraums aus ihrer Datenfriedhofsruhe geweckt und in einem einzigen organischen Datenverbund belebt werden könnten – so wie der riesige Ficus an der Piazza Marina in Palermo aus einer Vielzahl von tragenden Stämmen besteht, die unter der Erde wie im Geäst an unterschiedlichsten Stellen zusammengewachsen sind, weil die Zellstruktur der Pflanze überall dieselbe ist.
Es erübrigt sich darauf hinzuweisen, dass die hier am Beispiel der Geolinguistik skizzierten Erfahrungen, mutatis mutandis, von Forscher*innen aller linguistischen Subdisziplinen und vermutlich aller geisteswissenschaftlichen Disziplinen überhaupt gemacht werden, sobald sie die Perspektive der Digital Humanities einnehmen: Die technischen Bedingungen zur Einrichtung und zum Betrieb umfassender, offener Forschungsumgebungen sind gegeben und erprobt; ihre Gewährleistung liegt indes jenseits der Möglichkeiten von Projektverantwortlichen: Infrastrukturen verdienen ihren Namen erst dann, wenn sie Persistenz erlangen, auf die sich die ebenso unübersichtliche wie produktive Forschungspraxis verlassen kann. Forschungspraxis sollte FAIR sein, aber nachhaltig im strengen Sinn sind nur Strukturen und niemals Projekte (auch dann nicht, wenn sie den suggestiven Ausdruck Struktur in ihrem irreführenden Namen tragen).
VerbaAlpina versteht sich als rein digitales Forschungsprojekt und setzt sich seit seinem Start mit den unterschiedlichen Konsequenzen und Herausforderungen dieser Ausrichtung auseinander.
Vorab einige Feststellungen grundsätzlicher Natur. Anschließend stellen wir eine Reihe von Maßnahmen vor, die VerbaAlpina konkret umsetzt, um seine Projektergebnisse nachhaltig zu bewahren.
ab ovo — in vita — post mortem
Entwicklung der VA-Datenbank seit der ersten Versionierung im zweiten Halbjahr 2015. Das an einer Stelle sinkende Volumen ist durch Umstrukturierungen und Konsolidierungen zu erklären. Der nicht lineare Anstieg ist meist durch punktuellen Massenimport von Daten aus Partnerprojekten zu erklären.
Alle Versionen der VA-Datenbank zusammen umfassen bislang rund 13,6 GB. Hinzu kommen die Daten des Webmoduls, also des Internetportals inklusive der Mediendateien, aktuell 37,7 GB. Alles in allem ergibt das 51,3 GB.
VerbaAlpina hat die Frage der Nachhaltigkeit und die Erfüllung der FAIR-Kriterien stets im Blick. Wir begegnen der Herausforderung mit einer ganzen Reihe von Maßnahmen. Deren Zuordnung zu den Teilbereichen des FAIR-Komplexes ist intuitiv und im Einzelfall diskutabel (s. die roten Anmerkungen von Thomas Krefeld); sie ist in Klammern hinter den einzelnen Punkten angegeben. Auch die Reihung der Maßnahmen ist intuitiv, folgt aber grosso modo dem Gedanken der abnehmenden Bedeutung.
VerbaAlpina bemüht sich durch eine Vielzahl von Maßnahmen um Nachhaltigkeit seiner Projektergebnisse. Bislang ungelöste Probleme sind die folgenden:
Aktuell befindet sich noch vieles im Umbruch. Die Herausforderungen der tiefgreifenden Digitalisierung der gesamten Forschungslandschaft sind noch relativ neu. Es wird derzeit noch nach geeigneten Lösungen gesucht. In diesem Kontext steht u. a. oder auch v. a. die NFDI-Initiative. Wir vertreten die Auffassung, dass möglichst stabile institutionelle Lösungen geschaffen oder genutzt werden müssen, die über eine möglichst langfristige, im Idealfall unbefristete Existenzperspektive verfügen. Vor diesem Hintergrund erscheinen uns projektgebundene Ansätze mit von vornherein festgelegtem Ablaufdatum ungeeignet, um die unbefristete Verfügbarkeit von Forschungsdaten zu gewährleisten. Solange sich noch keine stabilen Lösungen etabliert haben, können Projektverantwortliche nur die laufenden Entwicklungen verfolgen und – soweit dies personell und zeitlich möglich ist – ggf. mehrgleisig fahren, sprich: die eigenen Daten in verschiedenen Formaten bei unterschiedlichen Partnern oder Dienstleistern unterzubringen versuchen. Die permanente Überprüfung der eigenen Nachhaltigkeits-Strategie ist unerlässlich.
⇒ Das Wort xy wurde/wird in den Jahren jjjj in der/den Gemeinde(n) yz zur Bezeichnung des Konzepts KO verwendet
Zu den Kernentitäten gehört auch der sog. Basistyp. Damit sind Wörter gemeint, die in irgendeiner Weise ganz offenkundig mit einem Morphtypen verbunden sind, ohne dass der Zusammenhang im Detail geklärt werden kann. In aller Regel handelt es sich dabei um ältere Vorstufen. Hierzu ein Beispiel:
Das deutsche Wort Salamander hängt unverkennbar mit dem italienischen salamandra zusammen. Das Wort salamandra gab es schon im Lateinischen (Georges). Für das deutsche Salamander stellt sich nun die Frage, ob es sich direkt aus dem Lateinischen entwickelt hat (Etymologie-Szenario) oder ob es später aus dem Italienischen übernommen worden ist (Entlehnungs-Szenario). Fragen dieser Art sind häufig nur mit sehr großem Aufwand – wenn überhaupt – zu entscheiden. Dennoch besteht unverkennbar eine Verbindung. Um diese dokumentieren zu können, hat VA den Basistyp eingeführt. (anders als im Fall von lat. salamandra können manche Basistypen keiner spezifischen Sprache zugeordnet werden. Gleichwohl muss es sie gegeben haben. In solchen Fällen wird ein Basistyp rekonstruiert [Kennzeichnung durch * vor dem Basistypen]; Beispiel: *cala als Basistyp z. B. von frz. chalet)
Abstract
Since 2014 the DFG-funded long term project VerbaAlpina (VA) is run at the Ludwig-Maximilians-University of Munich (LMU). VA is a cooperation of the Institute of Romance Studies and the LMU Center for Digital Humanities (DH; IT-Gruppe Geisteswissenschaften).
The project focuses on lexical variation throughout the Alpine area as defined by the so-called Alpine Convention (https://www.alpconv.org/). Whereas geolinguistic research within the Alpine region is traditionally orientated towards the spread of national languages and towards political borders, VA takes the homogeneous natural environment of the mountaneous region and the resulting uniform habitat conditions and ways of living as the guiding parameters defining its area of research.
VA is conceptualized as a strictly digital project that uses web technology for various purposes such as documentation, publication and visualisation. VA takes its data from traditional geolinguistic publications, mainly linguistic atlases and suitable dictionaries (i.e. dictionaries providing geographic information). The strictly digital approach is associated with several challenges starting from the difficulties regarding the transcription of the sometimes complex phonetic characters that are used especially in some of the linguistic atlases. VA has developed a series of specific reusable and freely available online tools that are used within the workflow of digitizing data from the printed sources. Another tool, the so-called Crowdsourcing tool, was built for gathering speech data from online users with the aim of filling documentation gaps that result from inconsistencies of the available printed sources.
An interactive online map that is using performant up-to-date graphical technology (WebGL) offers suggestive qualitative and quantitative visualisation of geographic distribution patterns from onomasiological and/or semasiological perspectives. These can also be combined with non linguistic data such as the sites of latin inscriptions.
In addition to the geolinguistic core themes of the project, VA is providing methodological reflexion on many of the issues deriving from the strictly digital orientation that should be of interest also beyond the borders of the project and even beyond the field of geolinguistics. In general, VA is looking for perspectives and solutions that allow the linkage of lexical data across so far isolated domains of geolinguistic research projects with the option of real interoperability (the “I” in the acronym FAIR).
The talk will provide more detailed information on the mentioned aspects of the project VerbaAlpina.
Talk*
One word in advance: It is still common to work with PowerPoint presentations on occasions like this. VerbaAlpina tries to avoid PowerPoint as it does not totally comply with the "FAIR"-criteria: At least a powerpoint presentation is not interoperable (FAIR) at all and usually hardly findable, accessible and reusable (FAIR). On the other hand, all these demands are met with a web-based contribution like the one you can see right here. This preamble is not meant as a criticism of using Powerpoint but rather as an apology for the use of this different kind of presentation.
You can scan the QR-Code below with your smartphone and follow the talk on your mobile device.
! Scan with Smartphon !
! Scan with Smartphon !
Some of you might already know our project VerbaAlpina. Nevertheless, I will start my talk by sketching the overall frameset of VerbaAlpina.
VerbaAlpina is a linguistic project with mainly lexical orientation. The focus is on a simple question: We would like to know which terms are used for specific concepts in the Alpine region. The documentation is limited to concepts that are typical for the Alpine region, such as mountain pasture and dairy farming or the specific alpine flora and fauna. From the point of view of traditional geolinguistics, a fundamental innovation is certainly the definition of the research area. The scope of many of the existing speech atlases for example complies with political-administrative concepts such as national territories or the selection criterion is restricted to the distribution of national languages. In contrast, VerbaAlpina has chosen the homogeneity of the Alpine region in terms of landscape, culture, and economy as the decisive aspect for the definition of the research area.
As already mentioned, the focus of VerbaAlpina's interest is the lexical material. VerbaAlpina's database is primarily based on material published in traditional language atlases. To a certain extent dictionaries were also used, but only those whose entries contain information on the geographical distribution of the documented terms. Examples include the Swiss-German Idiotikon or the Dizionario di Montagne di Trento by Corrado Grassi (DizMT).1. Among the language atlases prominent examples are the Sprach- und Sachatlas Italiens und der Südschweiz (AIS) and the Vorarlberger Sprachatlas (VALTS).
VerbaAlpina sees itself as an entirely "digital" online project that completely refrains from publications in conventional book or atlas form. The term "digital" also refers to work with *structured* data, that means data enriched with metadata. All these data are managed in a relational database (MySQL).
VerbaAlpina's data model is dominated by the correlation between the world of language and the extralinguistic reality, that is the world of concepts. The following scheme illustrates this correlation and makes it clear that in principle a certain word can designate more than just one concept and vice versa several words can exist for one and the same concept. In the context of VerbaAlpina, concepts are always written in capitals to clearly distinguish between words and concepts:
This basic model, which initially appears very simple, quickly acquires a high degree of complexity by adding the dimensions of space and time. This is because certain terms for certain concepts are only used in certain regions. The location and size of these regions can change over time or even disappear altogether.
So the question is:
Since the dimension of space is one of the central factors, VerbaAlpina only collects language material with georeferencing, as is the case in language atlases or in some dictionaries.
VerbaAlpina's spatial dimension is defined by the perimeter of the so-called Alpine Convention. The Alpine Convention is a treaty under international law signed by the countries sharing the Alps. The perimeter is a boundary drawn by this organisation which defines the extent of the Alps administratively. For purely pragmatic reasons VerbaAlpina follows this border since a clear delimitation of the study area is organisationally indispensable and otherwise hardly possible.2
Within the study area all collected and georeferenced language material is related to the grid of political communities. In the case of large-scale distribution data such as "Ticino" or "Vorarlberg", the corresponding language data is attributed to all municipalities in these regions. Starting from the fine granulation of the political communes, the language material can be grouped in later analyses according to superordinate political units such as cantons, departments, government districts or regions and visualised on a map.
From VerbaAlpina's point of view, the dimension of time is a little problematic, since the data grid is still very patchy in terms of chronological distribution and unbalanced in relation to the entire Alpine region. Some of the sources evaluated by VerbaAlpina indicate the time of the collection of a single document very precisely, sometimes even to the day3, while for other sources the year of publication only provides a terminus ante quem for the language data recorded therein.
VerbaAlpina's data material acquires historical depth through the interlocking of the words drawn from the sources and the identification of similarities in the lexical basis. French salamandre, Italian salamandra and German salamander have the same lexical basis. It is obvious to assume a historical connection here. However, it is not easy to decide whether, for example, the German word is derived from one of the two Romance words (loanword scenario), or whether all three variants can be traced back to a common forerunner independently of each other. In such cases, VerbaAlpina identifies a lexical precursor from an earlier language spoken in the Alpine region and assigns it to the modern words in order to be able to grasp *that* there is a connection between the three words mentioned. VerbaAlpina refers to such precursors as "base types". In the case of the example this would be the Latin salamandra.
The reason for this simplification is twofold: on the one hand, it is often not possible to decide which of the possible scenarios mentioned is present in the individual case and on the other hand, corresponding searches may be very time-consuming, so that they cannot be carried out within the framework of the project due to time constraints. The VA base types have the great advantage that they can be used to represent obviously existing connections *without* forcing the specification of the connections in detail.
The central reference value of VerbaAlpina are the so-called "morpholexical types", hereinafter referred to as "morph types". These are lexical units that are distinct, that means unmistakable, with regard to the linguistic family they belong to, spelling, genus and the question of whether they have an affixation or not. In this respect, the morph types correspond roughly to the lemmas of traditional dictionaries. These are predominantly nomina, verbs only play a subordinate role in VerbaAlpina so far.
VerbaAlpina initially bases its typification on so-called reference dictionaries. If there is a suitable entry in these dictionaries, it is assigned to the selected tokens. If the type exists in several reference dictionaries, multiple assignments are made. If a morph type does not exist in any reference dictionary, VerbaAlpina creates its own new morph type which is then assigned.
For the data collected from language atlases and dictionaries the morph type they represent must be decided on a case-by-case basis. An automatic assignment seems impossible. VerbaAlpina has developed a special tool facilitating manual typification, in which the transcribed and then tokenised utterances can be assigned to morph types (screenshot; link [registered users only]).
VerbaAlpina deliberately refrains from assigning morph types to individual languages or even dialects. The reason is that linguistic landscapes and thus also the Alpine region basically represent continua within which clear demarcations are practically impossible. Strictly speaking, each locality can have its own dialect. When defining the morph types, therefore, only the assignment to one of the three language families existing in the Alpine region is made. The assignment to a language family is inherited from the sources from which the documents belonging to the respective morph type originate.
The phonetic dimension is largely ignored by VerbaAlpina but can be mapped in the VerbaAlpina data model and is already present selectively in the database.
Many project specific aspects, be it related to linguistics or computer sciences, are reflected and thus documented in the methodology section of the project website.
VerbaAlpina uses standard software wherever possible which must also be open source. Essentially, this involves the MySQL database management system (DBMS) for managing the central database and the WordPress PHP framework for the project website. For the specific requirements of the project, however, tools based on the aforementioned basic technologies have been developed. All of them are available on Github for free re-use under the CC-BY-SA license (VerbaAlpina-Github-Repository). And there is already one case in which some of our tools is reused: The VerbaPicardia (APPI).
For the transcription of "exotic" writing systems, that primarily are found in language atlases, VerbaAlpina uses a concept that was developed and successfully used for the Thesaurus Linguae Graecae (TLG) in the 1970s (TLG-Betacode). In essence, the aim is to replace arbitrary characters and diacritics with defined and documented sequences of ASCII characters. The rules follow as simple and mnemotechnically favorable patterns as possible. For example, an acute on a base character is transcribed by a slash behind the base character.
The utterance you see here4:
taken from the AIS, is transcribed according to the transcription rules as follows:
la lac/a/
The sound value denoted by a sign is not important at all. This also means that identical signs such as the acute are always transcribed in the same way, that means with a slash after them, completely independent of the transcribed original and the possibly specific phonetic meaning. Only a source specific conversion procedure, in which all transcriptions are transferred into the IPA system, takes the sound values of the original source into account.
This method has several advantages:
Especially, the automatic structured recording of lexical material from language atlases represents a considerable technical problem. It is not about the transformation of the partly exotic writing systems, which are sometimes used there. OCR programs such as Abbyy Finereader can be trained in such a way that they also correctly capture such writing systems and even produce the VerbaAlpina-specific beta code.6
In case of the linguistic atlases of the Romance tradition the real difficulty lies often in assigning the correct place, represented by a number, to the statements entered directly on the map. Machines are always overwhelmed by this task – and sometimes even humans are – when the entries on the map are too close together, as is the case, for example, in the AIS in southern Switzerland and neighbouring Italy.7
From the point of view of automatic data acquisition the language atlases with point symbol maps, which are widely used in the field of German studies, appear to be even more complicated. In contrast to the Romance atlases data is usually displayed here in typified form. Concrete individual utterances of the informants are only presented occasionally.
The structured collection of data from these language atlases can therefore only be carried out manually. The problem is that consistent, error-free data collection requires a high degree of concentration and discipline. VerbaAlpina has developed a special transcription tool to make this work easier, to reduce the risk of errors and to ensure that the procedure is as systematic as possible.The tool synoptically combines a scan of the map to be transcribed and the form in which the transcriptions are entered. Maps and points on the map that have already been transcribed are marked accordingly. The system also prevents the duplicate capture of individual entries on the map. The transcriptor is given the numbers or signatures of the points on the map one after the other by the system. The transcription then takes place in the appropriate field of the form. The other parameters such as map number, location point number and concept assignment are specified by the system and are stored together with the transcription in the database. The registered data in the database then look like this:
The input mask presents the general transcription rules for data entry in beta code in a windowframe at the top right, so the transcriptor can consult them with as little effort as possible. The automatic conversion corresponding to the original script on the map is displayed to the right of the input field as the transcriptor is writing. Thus, the transcriptor can immediatly detect eventual typos. In addition, the system prevents entering invalid character combinations.
The database compiled by VerbaAlpina from language atlases and dictionaries shows inconsistencies in several respects. These inconsistencies result mainly from the fact that the language atlases each cover only parts of the Alpine region and do not all comprise the same concepts. As a result, for a certain region there are terms for concepts that were not even queried elsewhere – which does not mean that they do not exist there. For example the concept BEE is only attested in the areas documented by the following atlases: AIS, ALF, ALJA, ASLEF, TSA as is visualized on the following maphttps://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=xxx&tk=2428)<br /> " rel="footnote">8
It is not possible to carry out any surveys to fill the gaps. VerbaAlpina is therefore using the idea of crowdsourcing to round off the database. The idea is that users on the Internet contribute previously undocumented terms for selected concepts. VerbaAlpina has developed a special crowdsourcing tool (CS tool) for this purpose (Link). The functionality is deliberately kept simple so as not to deter potential crowders.
Each "crowder" has to select a location on a map and enters designations for selected concepts that are, in his opinion, common at this location. VerbaAlpina typifies the entire material as well as the data from atlases and lexica. A validation of the crowd material is theoretically possible through the principle of third-party confirmation but is currently not carried out by VerbaAlpina, mainly because the amount of data is still too small.
VerbaAlpina is monitoring the crowd activity (Link). Experience has shown that the vitality of the croudsourcing tool, that is: the number of entries, depends crucially on corresponding advertising activities. Immediately after media reports about VerbaAlpina and its crowdsourcing tool or corresponding propaganda in social media, the number of entries rises sharply but always falls again soon.
The interactive online map appears as the, so to say, "showcase" of the project. It is designed as the central data access point for the public, enabling the representation of language data in the dimension of space and thus revealing connections that often remain hidden when data is viewed in table or list form.
The digital map offers both the possibility of accessing the database from the perspective of words, that means of mapping the various concepts that can be designated by a particular word, and the option of asking the opposite question: Which concepts are designated where with which words. In traditional publishing, these two perspectives could only be served by two different genera: The (onomasiological) language atlas and the (semasiological) dictionary. The digital online map even offers the possibility of synoptically mapping both perspectives.
The map essentially offers two different forms of visualization. he standard method is qualitative mapping where the individual data which are bundled according to political communities are first displayed on the map by symbols. The following example shows the mapping of the distribution of the Romanic morph type malga, grouped according to its regionally different meanings:
A click on the map symbols opens an info window in which the underlying language data is presented. In addition to the source, the concept designated with the word, the base type and the individual attestation of the respective source in IPA are also displayed. The framed letters behind morph and base types refer to the corresponding entries in the reference dictionaries and are partly interactive, depending on accessibility on the net. A click on the symbol then leads directly to the corresponding entry in the reference dictionary. The info window also includes norm data and links to them. A click on the globe symbol next to or below the municipality name leads to the corresponding Geonames page, the concept names are linked to the Wikidata entries.In addition to qualitative mapping, VerbaAlpina also offers a quantifying presentation. A click on the Q in the circle next to the menu item "Areas and regions" acccumulates the currently mapped elements according to regions and colours them differently according to the number of elements mapped there. As default the large language areas form the reference pattern. By selecting the corresponding menu item "Areas and regions", the data can also be accumulated and mapped according to smaller administrative units down to the level of municipalities.
The following map shows the distribution of morph types connected to the (Latin) base type butyuru(m) (Link):
The same data accumulated on the quantifying map (Link):
In addition to the realistic representation of the geographical boundaries, the quantifying representation can also be visualized on a hexagon map. In this kind of map, the geographical units are represented by hexagons of identical size. Thus, visual distortion effects are avoided which result from the area sizes which differ strongly from each other in reality. Of course, this kind of mapping has the disadvantage that the geographical arrangement of the areas and especially the number of adjacent areas no longer corresponds to reality in most cases. The added value certainly results from the possibility of switching between the different mapping variants and thus gaining an almost objective impression.
The sharing symbol at the top right-hand corner of the map allows you to call up a persistent link that refers stably to the current map view and can, for example, be sent by e-mail or used in texts.
The realization of the online map is based on the latest graphics technology (WebGL) and is extremely powerful. This performance becomes visible above all during zoom processes with a large number of map symbols and borders, which demand a high computing power from the computer. The use of WebGL allows the necessary calculations on the processor of the graphics card (GPU) which is responsable for the decisive performance gain.
Access to VerbaAlpina data is possible in various ways:
The API allows the download of finely granulated material in a number of different formats and aggregations. Access via the PMA interface is reserved for VerbaAlpina's official cooperation partners. The PMA interface allows data analysis using the SQL language. SQL-statements can also be executed using a form in the mapping tool. This function will be accessible to the public very soon. At present its use is restricted to registered users.
VerbaAlpina's core data is very finely granulated and the individual elements are uniquely identified with persistent identifiers and can therefore be addressed precisely. Ultimately, these alphanumeric identifiers fulfill the function of VerbaAlpina-specific norm data. In concrete terms, all morph types, concepts and political communities are given a unique number which can be used to access the specific data in different ways or be referenced externally. Identifiers of the morph types have the prefix L, concepts C and communities A. The ID L1435, for example, stands for the morph type "babeurre (m.) (roa.)". The first of the following addresses calls up a mapping of the distribution of this morph type, the second leads to the download of the data stored on this morph type in XML format and the last, finally, leads to the commentary in the Lexicon Alpinum – if available:
With a few exceptions, all URLs that refer to VerbaAlpina content contain a parameter that refers to a specific version of VerbaAlpina, marked in red in the examples above. The first two digits represent the year, the last one the version number of the year (191: first version in 2019). While the database of the working version, which is recognizable by the character string xxx, is subject to permanent changes, the contents of the other versions are stable. This ensures that references to these URLs always call up the same content and citation security is guaranteed. VerbaAlpina data is versioned twice a year, at mid-year and at year-end. You can choose between the available versions on the homepage.
The data of VerbaAlpina will soon also be transferred to the RDF schema of the Semantic Web. However, the establishment of a SPARQL endpoint is not planned for the time being; the corresponding implementation involves some effort and seems dispensable since there are a number of other ways of accessing the VerbaAlpina data. After all, VerbaAlpina meets the criteria of the "Linguistic linked open data" movement (http://linguistic-lod.org/).PDF). Heidelberg, in: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (Hrsgg.), New Trends of Research in Ontologies and Lexical Resources. Springer." rel="footnote">9, and the data of VerbaAlpina will soon be included in this.
In the course of transferring the data of VerbaAlpina to the research data repository of the LMU-Library every item is enriched with DataCite metadata and is given a persistent DOI. The corresponding procedure is currently in development. It will soon be functional.
VerbaAlpina links the three core categories of its database with external databases via the integration of suitable norm data.
In the case of morph types, corresponding links are established to the reference dictionaries. An interesting side effect is that the different suitability of the corresponding resources becomes clear. In terms of maximum interoperability, only some of the reference dictionaries provide suitable possibilities to technically address data in a desireable way. Positive examples include the portal of the Centre National de Ressources Textuelles et Lexicales ([Bibl:CNRTL]) or the Italian Treccani which offer transparent URLs for each lexical entry (e.g: https://www.cnrtl.fr/definition/beurre, http://www.treccani.it/vocabolario/burro/). In some other cases references are only possible with great inaccuracy or not at all. It is not uncommon to encounter the phenomenon that the addressability of the contents still refers to the conventional page logic of book printing and to PDF documents or image files. This is, for example, the case with the French etymological dictionary (FEW).
For the concepts VerbaAlpina refers so far exclusively to the so-called Wikidata data objects. Each concept is assigned the respective Wikidata Q-ID in the database of VerbaAlpina. The corresponding link leads to the Wikidata data object page. There you will find links to the articles in the different Wikipedia of this concept. The link to the norm data of geonames has already been mentioned.
As we have already seen, links to all norm data are presented to the user in the info windows on the online map.
VerbaAlpina started in 2014 and is funded by the German Research Foundation (DFG) with a perspective until 2025. The individual project terms comprise 3 years each. At the moment we are heading towards the last year of the second term and are about to prepare the application for the funding of the third term.
VerbaAlpina is directed by Thomas Krefeld and myself. The staff is divided into two parts: There are three linguists and two computer scientists who are each supported by assistants. Among the linguists there are two Romance scholars and one Germanist. One of the computer scientists is mainly responsible for all aspects of the core data (data modelling, interfaces, API), the other mainly for all questions of visualisation, mainly the interactive online map.
VerbaAlpina is thus an interdisciplinary DH project with parts of the classical humanities and computer science. The LMU Center for Digital Humanities (IT-Gruppe Geisteswissenschaften; ITG) is responsible for the informatics part. This institution was created in 2000, is largely financed by the six humanities faculties of the LMU and has an unlimited perspective of existence. The ITG is responsible for planning and operating the IT infrastructure in the Humanities area. One of the ITG's steadily growing areas of responsibility is support in the planning and implementation of DH projects. From the ITG's point of view, VerbaAlpina is only one of numerous projects whose project data is managed in the context of a heterogeneous, but uniformly – namely relationally – structured overall data pool. Over the years, this data pool has grown to considerable size and diversity, offering at least theoretically the perspective of data analysis across project boundaries. Against this background, the ITG is currently developing a cooperation with the LMU-Master's programme in Data Science, which was launched at the beginning of 2017.
The ITG also plays an important role with regard to the sustainability of the results produced by VerbaAlpina. After the end of project funding, the ITG will continue to operate the project portal as far as possible and perform the minimum maintenance work required for operation.
* Given at the colloqium „NEW WAYS OF ANALYZING DIALECTAL VARIATION“, held at Sorbonne University, Paris, 21-23 November 2019. The English version of the talk was initially produced with the help of DeepL (https://www.deepl.com/translator) and subsequently corrected or adapted where necessary.
Grassi documents the local variation of a single small town in the Italian province of Trento ↩
However, the chosen definition of the study area causes certain asymmetries, such as the fact that the Swiss Emmental, famous for its cheese, lies outside the Alpine Convention and is therefore not covered by VerbaAlpina, although this region could very well be considered part of the Alpine region from both an economic and an environmental point of view. ↩
Such is the case in the AIS ↩
AIS 1218_1, 129 ↩
This would be the case, for example, if the Böhmer Ascoli system, used for example in the AIS, were transcribed directly into IPA instead of the present one, since IPA does not allow such a fine differentiation with regard to the individual sounds as Böhmer Ascoli does ↩
The procedure is sketched in S. Lücke / C. Riepl / C. Trautmann, Softwaretools und Methoden für die korpuslinguistische Praxis (Korpus im Text 1, München 2017, S. 126f. ↩
A master thesis has just been completed at the Institute of Computer Science of the LMU, which was intended to design an algorithmic solution to this problem. Among other things, deep learning methods were used. As far as VerbaAlpina can judge, however, no success is in sight in this way either – not to talk about the technical availability of an appropriate tool. ↩
AIS: Map 1152: un'ape; le api"
ALF: Map 1: abeille"
ALJA: Map 792: (l') abeille *(le) mâle des abeilles"
ASLEF: Map 1148: ape"
TSA: Map III_28: Biene"
(cf. map https://www.verba-alpina.gwi.uni-muenchen.de?page_id=133&db=xxx&tk=2428)
↩
S. Chiarcos, Christian; McCrae, John; Cimiano, Philipp; Fellbaum, Christiane (2013). Towards open data for linguistics: Lexical Linked Data (PDF). Heidelberg, in: Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (Hrsgg.), New Trends of Research in Ontologies and Lexical Resources. Springer. ↩