Methodologie

Sortierung

A   B   C   D   E   F   G   H  I   J  K   L   M   N   O   P   Q   R   S   T   U   V   W   X  Y  Z  


Datenmodellierung (Zitieren)

s. Relationales Datenmodell

Tags: Linguistik Informationstechnologie



Datenzugriffsschicht (Zitieren)

Der Zugriff auf das Modul VA_DB erlaubt, unmittelbar in den primären Projektdaten zu recherchieren. Dieser Zugriff kann entweder durch den Menschen (über das Modul VA_WEB) oder durch Maschinen bzw. Programme erfolgen. Letzteres Szenario besteht z. B. auch projektintern bei der Kommunikation zwischen den Modulen VA_WEB und VA_DB, betrifft aber auch automatische Zugriffe z. B. von Rechnern bzw. Programmen der VA-Projektpartner. Im Laufe der Entwicklungsarbeiten im Bereich der Module VA_WEB und VA_DB ist es aus informatischer bzw. programmiertechnischer Sicht nicht selten erforderlich, bestehende Datenstrukturen zu verändern und an neue Erfordernisse anzupassen. Dies kann im Fall des Zugriffs durch einen Menschen zu Verwirrung führen, im Fall des Zugriffs durch eine Maschine bzw. ein Programm führt es schlicht zu einer Fehlfunktion. Um diesem Problem zu begegnen, wird innerhalb von VA_DB eine – zumindest weitgehend – stabile Datenstruktur zwischengeschaltet, in die hinein die veränderlichen primären Datenstrukturen projiziert werden.

(auct. Stephan Lücke)

Tags: Informationstechnologie



Digital Humanities (Zitieren)

Das Projekt VerbaAlpina wurde von vornherein mit Blick auf Webtauglichkeit konzipiert, denn es will ganz entschieden zur Überführung der etablierten geisteswissenschaftlichen Traditionen, genauer: der Geolinguistik, in die Digital Humanities beitragen .
Das bedeutet:
(1) Die empirische Grundlage der Forschung besteht in Daten (vgl. Schöch 2013), d.h. in digital kodierten und strukturierten oder mindestens strukturierbaren Einheiten; dabei handelt es sich teils um bereits publizierte und sekundär digitalisierte Daten (wie z.B. die älteren Atlasmaterialien), teils aber auch um neu zu erhebende Daten. Im Blick auf die relevanten Konzepte werden möglichst umfangreiche Datenbestände angestrebt. Die Methode ist also quantitativ und weitgehend induktiv.
(2) Die Forschungskommunikation erfolgt unter den medialen Bedingungen des Internets. Das eröffnet zunächst die Möglichkeit unterschiedliche Medien (Schrift, Bild, Video und Ton) hypertextuell zu verflechten; weiterhin können die als Forscher (vor allem als Projektpartner) und/oder als Informanten beteiligten Personen kontinuierlich miteinander kommunizieren und kooperieren.
(3) Damit wird interessierten Wissenschaftlern das Angebot gemacht, an der Entwicklung dieser projektbasierten und kollaborativen Forschungsplattform mitzuwirken. Diese Perspektive ist mindestens in doppelter Hinsicht nützlich und weiterführend: Sie erlaubt es, unterschiedliche Standorte einzubinden und – vor allem – die konstruktive Verschränkung von Informationstechnologie und Sprachgeographie mit öffentlichen Ressourcen voranzutreiben, ohne auf den (juristisch und ökonomisch problematischen) Support privater IT-Firmen zurückgreifen zu müssen.
(4) Das projektrelevante Wissen kann auch auf längere Zeit kontinuierlich akkumuliert und modifiziert werden, obwohl die Garantie einer dauerhaften Verfügbarkeit technisch noch schwer umzusetzen ist (vgl. hierzu die wichtige CLARIN-D-Forschungsinfrastruktur http://de.clarin.eu/de/home.html). Jedenfalls ist eine Publikation der Ergebnisse auf dinglichen Trägermedien (Bücher, CDs oder DVDs) vor diesem Hintergrund kein zentrales Anliegen mehr; gleichwohl wird eine sekundäre Druckoption eingerichtet, so wie es auch die Online-Lexikographie gelegentlich anbietet, so z. B. der exemplarische Tesoro della Lingua Italiana delle Origini.

(auct. Thomas Krefeld)

Tags: Informationstechnologie



Digitalisierung (Zitieren)

Mit Digitalisierung wird im Kontext von VerbaAlpina nicht der schlichte Einsatz von Computern zur elektronischen Datenverarbeitung, sondern vielmehr und wesentlich die digitale Tiefenerschließung des Materials durch systematische und transparente *Strukturierung* und Kategorisierung verstanden.





Dabei kommt quasi ausschließlich das relationale Datenmodell zum Einsatz, bei dem das Datenmaterial grundsätzlich in Tabellengestalt organisiert wird. Die Tabellen bestehen aus Zeilen (= Datensätze, Tupel) und Spalten (= Attribute, Felder, Eigenschaften), wobei jede Tabelle in jede Richtung um zusätzliche Zeilen und Spalten erweitert werden kann. Zwischen den Tabellen bestehen logische Zusammenhänge, die sinnvolle Verknüpfungen und entsprechende synoptische Darstellungen (sog. "Joins") von zwei und mehr Tabellen erlauben. Für die Verwaltung der Tabellen setzt VerbaAlpina derzeit das Datenbankmanagementsystem MySQL ein, die Tabellen sind jedoch nicht an dieses System gebunden, sondern können jederzeit z.B. in Textgestalt mit eindeutig zu definierenden Trennzeichen für Feld- und Datensatzgrenzen (sog. Separatoren) zusammen mit den Spaltennamen und der Dokumentation der logischen Zusammenhänge (Entity-Relationship-Modell) exportiert werden. Die derzeit vielfach verwendete XML-Struktur wird im operativen Bereich von VerbaAlpina nicht eingesetzt. Im Rahmen des Schnittstellenkonzepts ist XML jedoch als Exportformat verankert.

Neben der logischen Strukturierung der Daten spielt im Zusammenhang mit dem Stichwort "Digitalisierung" die Kodierung der Schriftzeichen die zweite zentrale Rolle. Gerade im Hinblick auf die Langzeitarchivierung des Datenmaterials ist der richtige Umgang mit dieser Thematik von großer Bedeutung. Soweit möglich, orientiert VerbaAlpina sich dabei an der Kodierungstabelle und den Vorgaben des Unicode-Konsortiums. Im Fall der Digitalisierung von Schriftzeichen, die bislang noch nicht in die Unicodetabelle aufgenommen sind, erfolgt die digitale Datenerfassung eines Einzelzeichens vorzugsweise durch Serialisierung in Gestalt einer Abfolge von Zeichen aus dem Unicode-Bereich x21 bis x7E (innerhalb des ASCII-Bereichs). Die entsprechenden Zuordnungen werden in speziellen Tabellen dokumentiert, wodurch eine spätere Konvertierung in dann möglicherweise vorhandene Unicodewerte stets möglich ist.

(auct. Stephan Lücke)

Tags: Linguistik



Dokumentation (Zitieren)

VerbaAlpina dokumentiert die dialektale Variation innerhalb eines ethnographisch definierten Raums; der onomasiologische Rahmen wird durch kulturelle Techniken und Lebensformen abgesteckt, die sich unter den jeweils spezifischen, auch kulturunabhängigen Umweltbedingungen konventionalisiert haben. Dergleichen Räume, die durch die Alpen in prototypischer Weise repräsentiert werden, konnten die sprachwissenschaftlichen Forschungstraditionen nicht angemessen erfassen, da sich die Teildisziplinen, die sich systematisch mit der Konstitution von Räumen beschäftigen – also die Sprachgeographie bzw. Dialektologie oder auch Geolinguistik – beinahe ausnahmslos an vorgegebenen politischen und/oder (einzel)sprachlichen Grenzen orientieren. Der räumliche Zuschnitt zentraler und in mancher Hinsicht bis heute maßgeblicher Unternehmungen ist zwar nachzuvollziehen (vgl. etwa den AIS und das FEW) – zustimmen mag man jedoch oft nicht. Gerade die besonders faszinierenden mehrsprachigen Kulturräume, also z. B. das Gebiet zwischen der montenegrinisch-albanischen Adriaküste und der Donau, fallen daher durch das Raster der etablierten, durch nationalphilologische Voreinstellungen gesteuerten Forschung. Der ambitioniert geplante Atlante linguistico mediterraneo hätte ein richtungweisendes Großprojekt werden können; er ist jedoch über Ansätze niemals hinausgekommen.
VerbaAlpina zielt auf den Alpenraum; das Projekt will aber weder Sprach- noch Dialektgrenzen herausarbeiten und keineswegs das Mosaik gegeneinander abgegrenzter Varietäten (Dialekte) abbilden. Vielmehr wird eine interlinguale Geolinguistik entwickelt, die untersucht, inwieweit spezifische Varianten, nämlich die für den alpinen Kulturraum charakteristischen Bezeichnungstypen, gerade den Dialekten gemeinsam sind und sie womöglich über die Grenzen der Sprachfamilien hinaus verbinden. Die relative Ähnlichkeit der lokalen Dialekte ergibt sich induktiv aus den Daten selbst. Die einzige vorgegebene Gliederung des Alpenraums, die von vornherein unterlegt wird, betrifft die aktuellen Grenzen zwischen den drei großen Sprachfamilien (Germanisch, Romanisch, Slawisch).

Perspektive

Die Verteilung der Varianten in diesen dialektalen Großräumen impliziert vielfältige, mehr oder weniger weit zurückliegende Kontaktbeziehungen; daher kann die übergreifende Perspektive des Projekts nur eine historische sein. Im Hinblick auf den skizzierten Untersuchungsraum versteht sich VerbaAlpina allerdings nicht als Beitrag zur nationalen Sprachgeschichtsschreibung der involvierten Sprachen, sondern als Versuch, die Stratigraphie eines mehrsprachigen kommunikativen Raums exemplarisch zu rekonstruieren.

Dabei wird ausschließlich bottom up verfahren, das heißt auf Grundlage von Daten, die lokal georeferenzierbar sind. Die minimale und by default geltende Referenzeinheit ist die politische Gemeinde, genauer gesagt ein Geopunkt, der die Gemeinde als Ganze repräsentiert, oder aber die gesamte Gemeindefläche. Im Bedarfsfall kann die Georeferenzierung jedoch bis auf wenige Meter präzisiert werden.

Kartographie

Den Zugang zur Dokumentation vermittelt vor allem ein interaktive Karte. Bislang werden zur Visualisierung nur Punktsymbolkarten mit interaktiven Symbolen eingesetzt. Komplementär wird eine interaktive Flächensymbolisierung auf Basis der Gemeindeflächen vorbereitet, um eine bessere Visualisierung quantitativer Verhältnisse zu erzielen. Die interaktiven Symbolkarten markieren einen substanziellen Fortschritt der linguistischen und humanwissenschaftlichen Raumdarstellung, da sie es gestatten, stark abstrahierte ('synthetische') Repräsentationen mit ganz konkreten, lokalen Informationen ('analytisch') anzureichern.

Linguistische Datenaufbereitung

Bei Aktivierung ('Klick') eines Punktsymbols öffnet sich ein Fenster mit den jeweils für den Ort verfügbaren sprachlichen Daten; das folgende Beispiel zeigt die Bezeichnung des Konzepts BUTTER in Ramosch (Unterengadin):



Präsentation der sprachlichen Daten mit einem Pop-up-Fenster der interaktiven Karte

Die Daten werden quellentreu wiedergegeben (als phonetisch transkribierter Einzelbeleg, wie im vorstehenden Beispiel, oder in orthographisch typisierter Form) und allgemeineren Typen zugeordnet; die abstrakteste Kategorie wird durch den etymologisch definierten Basistyp vertreten. Demnächst kommen – wenn möglich – Verweise auf Referenzwörterbücher hinzu.

Filter

Mehrere Filter erlauben es dem Nutzer, aus den verfügbaren Daten eine gezielte Auswahl zu treffen und kartographisch darzustellen. Der oben gezeigte Kartenausschnitt stammt aus der Karte, die bei Auswahl des 'Konzepts' BUTTER erscheint:



Filter zu Steuerung der interaktiven Karte

Gruppieren und Sortieren

Nicht selten sind in den ausgewählten Kategorien bereits zahlreiche sprachliche Ausdrücke verfügbar; die Suche nach dem 'Konzept' BUTTER (vgl. die folgende Abb.) führt zu 1448 Belegen. Es wird daher die Möglichkeit gegeben, alle relevanten Ausdrücke nach unterschiedlichen Kriterien zu gruppieren und sortieren:



Die Sortierfunktion der interaktiven Karte: Konzepte

Eine entsprechende Option ergibt sich auch bei der Suche nach morpho-lexikalischen Typen oder Basistypen; vor allem die Sortierung nach dem Kriterium 'Konzept' ist auch unabhängig vom erfassten Sprachraum von Interesse, weil sie die Polysemie eines jeden Ausdrucks freilegt. Hier zwei screenshots der Vorgehensweise am Beispiel von malga:





Als Ergebnis resultieren die folgenden Bedeutungen, die untereinander in klarer metonymischer Beziehung stehen:



Polysemie des morpho-lexikalischen Typs malga

Quellen

Bislang wurden einige georeferenzierbare Wörterbücher, vor allem jedoch Sprachatlanten ausgewertet. Dabei wurden im Wesentlichen drei Techniken eingesetzt:
    1. Bereits auf gedruckten Karten publiziertes Material wurde mit einem speziell entwickelten Tool neu transkribiert und in die VA-Datenbank eingelesen, so im Fall der allermeisten Atlanten (SDS, AIS, TSA usw.).


    2. Das von VA entwickelte Transkriptionstool

    3. Bereits auf gedruckten Karten publiziertes Material, das jedoch im Original schon digital vorliegt, wurde so konvertiert und algorithmisch neu transkribiert, dass es in die VA-Datenbank eingelesen werden konnte. Dieses Verfahren wurde für den ALD und den ALTR praktiziert.
    4. Noch nicht publiziertes Material anderer Projekte wird direkt aus deren Erhebungsbögen transkribiert bzw. digital übernommen; dies gilt bislang vor allem für SAO-Daten.

    Multidimensionalität

    Für ein umfassendes Verständnis der historischen Prozesse ist es unbedingt wünschenswert, die sprachliche Daten um andere, historisch relevante Daten zu ergänzen; das kann VerbaAlpina nur sehr bedingt leisten; immerhin sind manche relevante Daten abrufbar. Der folgende Kartenausschnitt zeigt in synoptischer Zusammenschau einerseits die
    • Orte mit lateinischen Inschriften in der Provinz Noricum ;
    • Orte mit lateinischen Inschriften aus Raetien ;
    • aus der so genannten Tabula Peutingeriana überlieferten römische Ortsnamen an den viae publicae .
    Andererseits wurden die Reflexe von drei lateinischen, genauer: zwei lateinischen und einem latinisierten aber mutmaßlich vorrömischen Basistypen aufgerufen:
    • Basistyp lat. casearia in der Bedeutung 'Hütte'  in Nord-, Süd- und besonders prägnant in Osttirol;
    • den Basistyp vorröm. baita in der Bedeutung 'Haus'   in Slowenien südlich von Ljubljana;
    • den Basistyp lat. cellarium in der Bedeutung 'Hütte'  in Oberösterreich.


    Synoptische Karte zur lateinischen Epigraphik, den Tabula Peutingeriana-Orten und den Basistypen cellarium und baita in einem Teil des deu. und slow. Raums (vgl. die Legende oberhalb der Karte)

    Die unübersehbare Kongruenz oder wenigstens Affinität der Distributionen dürfte kaum einem Zufall geschuldet sein.

    (auct. Thomas Krefeld)

    Tags: Funktionsbereiche