Methodologie

Sortierung

Alle Einträge anzeigen

A   B   C   D   E   F   G   H  I   J  K   L   M   N   O   P   Q   R   S   T   U   V   W   X  Y  Z  


Transkription (Zitieren)

Die sprachlichen Materialien werden graphisch in doppelter Weise wiedergegeben, um den beiden gegenläufigen Prinzipien der Quellentreue und der leichten Vergleichbarkeit gerecht zu werden:
(1) Inputversion in der Originaltranskription
Im VA-Portal werden Quellen zusammengeführt, die aus unterschiedlichen Fachtraditionen stammen (Romanistik, Germanistik, Slavistik) und die historisch unterschiedliche Phasen der dialektologischen Forschung repräsentieren; manche Wörterbuchdaten wurden zu Beginn des letzten Jahrhunderts (GPSR) und andere erst vor wenigen Jahren (ALD) erhoben. Deshalb ist es wissenschaftsgeschichtlich notwendig, die Originaltranskription weitestgehend zu respektieren. Aus technischen Gründen ist es allerdings unmöglich, bestimmte Konventionen unverändert zu erhalten; das gilt insbesondere für die vertikale Kombination von Basiszeichen (‘Buchstaben’) und diakritischen Zeichen, also etwa dann, wenn ein Betonungsakzent über einem Längenzeichen über einem Vokal über einem Schließungszeichen positioniert ist (Betacode). Diese Konventionen werden in jeweils definierten technischen Transkriptionen in lineare Folgen von Zeichen überführt, wobei ausschließlich ASCII-Zeichen benutzt werden (so genannter Betacode). Bis zu einem gewissen Grad können bei der Beta-Kodierung intuitiv verständliche graphische Ähnlichkeiten zwischen den Originaldiakritika und den ASCII-Entsprechungen ausgenützt werden; sie sind mnemotechnisch günstig.

(2) Outputversion in IPA
Im Sinne der Vergleichbarkeit und auch der Nutzerfreundlichkeit ist zudem die Ausgabe in einer einheitlichen Transkription wünschenswert. Alle Beta-Codes werden daher mit spezifischen Ersetzungsroutinen in IPA-Zeichen überführt. Einige wenige, aber unvermeidbare Unverträglichkeiten ergeben sich vor allem dann, wenn einem, durch Diakritika spezifizierten Basiszeichen in der Inputtranskription in IPA zwei unterschiedliche Basiszeichen entsprechen. Das gilt vor allem im Hinblick auf die Öffnungsgrade der Vokale, wo z. B. in der palatalen Reihe die beiden Basiszeichen <i> und <e> in Verbindung mit Schließungspunkt und einem oder zwei Öffnungshäkchen es erlauben, sechs Öffnungsgrade abzubilden; in Beta-Kodierung sind das: i – i( – i((– e?-- e – e(– e((. Dafür stehen in IPA nur vier Basiszeichen i – ɪ – e – ɛ zur Verfügung.

(auct. Thomas Krefeld)


Tags: Dokumentation



Typisierung (Zitieren)

Die 'Interaktiven Karte' bieten dem Nutzer die Möglichkeit, nach drei verschiedenen sprachlichen 'Typen' zu suchen. Jeder 'Typ' ist als eine Klasse von sprachlichen Ausdrücken zu verstehen; dadurch soll die unübersichtliche Vielfalt der zahlreichen sprachlichen Varianten in überschaubarer Weise strukturiert werden. Es werden phonetische, morphologische und – im Fall des 'Basistyps' – sprachgeschichtliche Kriterien eingesetzt. Die Typisierung der georeferenzierten Sprachdaten gehört zu den grundlegenden Anforderungen von VerbaAlpina. Dazu werden, wo dies möglich ist, aus den Inputdaten nach der Transkription in einem ersten Schritt Tokens ('Einzelwörter') extrahiert und in das gleichnamige Datenbankfeld eingetragen.

Im Zentrum des Interesses von VerbaAlpina steht die morphologische Typisierung des gesammelten Sprachmaterials. Ein morphologischer Typ wird dabei durch Übereinstimmung der folgenden Eigenschaften definiert: Sprachfamilie – Wortart – einfaches Wort vs. affigiertes Wort – Genus – lexikalischer Basistyp. Die Nennform des morphologischen Typs schließlich orientiert sich an den korrespondierenden Lemmata ausgewählter Referenzlexika (s.u.).

Durch die Zuweisung zu einem gemeinsamen lexikalischen Basistyp wird die Zusammengehörigkeit aller vereinigten morpho-lexikalischen Typen klar – auch über Sprachgrenzen hinweg. So lassen sich die folgenden (hier nicht im Detail beschriebenen) Nomina und Verben einem einzigen Basistyp malga zuweisen: malga (ALM, HERDE), malgaro (SENN), malghese (HIRTE), immalgare (ALM BEZIEHEN), dismalgare (ALM VERLASSEN). Allerdings sagt der lexikalische Basistyp nichts über die Wortgeschichte der einzelnen morpho-lexikalischen Typen aus: Ob ein Typ mit lateinisch-romanischem Etymon, der heute im germanischen oder slowenischen Sprachgebiet belegt ist, wie z. B. slowenisch bajta 'einfaches Haus', auf altes lokales Substrat zurückgeht oder aber auf neueren romanischen Sprachkontakt, muss jeweils einzeln herausgearbeitet werden. Aus diesem Grund wird die Bezeichnung "Etymon", die sich grundsätzlich auf die unmittelbare historische Vorstufe eines Wortes bezieht, in diesem Kontext vermieden – auch wenn in vielen Fällen der lexikalische Basistyp tatsächlich auch das Etymon eines morpho-lexikalischen Typs ist.

Die morpho-lexikalischen Typen bilden die Leitkategorie in der Verwaltung der sprachlichen Daten; sie sind den Lemmata der Lexikographie vergleichbar. Mittels der oben genannten, robusten und gut operationalisierbaren Kriterien lassen sich z.B. die vier phonetischen Typen barga, bark, margun, bargun mit der Bedeutung ALMHÜTTE, ALMSTALL auf drei morpho-lexikalische Typen reduzieren:





Die Zugehörigkeit der morpho-lexikalischen Typen zu Sprachfamilien (germ., rom., slaw.) hängt von der jeweiligen Quelle ab; sie ergibt sich im Fall traditionell erhobener Atlas- oder Wörterbuchdaten automatisch über die jeweiligen Informanten und wird entsprechend in der Datenbank notiert. Im Fall der Daten, die VerbaAlpina selbst durch Crowdsourcing erhebt, wird die Sprach- bzw. Dialektzugehörigkeit von den Informanten behauptet und im Idealfall quantitativ bestätigt; die Anzahl von bestätigenden Informanten wird so zu einem Instrument der Datenvalidierung.

Morpho-lexikalischen Typen sind auf eine Sprachfamilie beschränkt. Es stellt sich nun die Frage, durch welche Form ein morpho-lexikalischer Typ in der Suchfunktion der interaktiven Karte repräsentiert werden soll. Im Hinblick auf die germanische und slawische Sprachfamilie fällt die Antwort eher leicht, da beide jeweils nur durch eine standardisierte Einzelsprache ('Deutsch' [deu] bzw. 'Slowenisch' [slo]) vertreten sind. Die morpho-lexikalischen Typen können in Gestalt ihrer standardsprachlichen Varianten abgebildet werden, selbstverständlich unter der Bedingung, dass es im Standard Entsprechungen des Typs gibt; so können beispielsweise alle entsprechenden phonetischen Typen des Alemannischen und Bairischen, die Varianten der Standardform sind, unter ebendieser Standardform aufgerufen werden. Falls Standardvarianten nicht existieren, werden die Lemmata der großen Referenzwörterbücher (Idiotikon, WBÖ) herangezogen.

Im Fall der romanischen Sprachfamilie ist die Situation wegen der zahlreichen, teils nicht hinreichend standardisierten Kleinsprachen sehr viel komplexer. Aus pragmatischen Gründen wurde hier der folgende Weg gewählt: Alle morpho-lexikalischen Typen werden, sofern vorhanden, durch die französischen und italienischen Standardformen repräsentiert; so können z. B. alle phonetischen Typen, die Varianten von beurre/burro 'Butter' sind, unter diesen beiden Formen aufgerufen werden; als Referenzwörterbücher fungieren u.a. TLF und Treccani. In entgegengesetzter Perspektive werden jeder Einzeläußerung alle drei Typen, ein Konzept sowie ein Verweis auf ein Referenzwörterbuch zugeordnet: :



Falls nur eine dieser beiden Standardsprachen eine passende Variante hat, erscheint nur diese, wie im Fall von ricotta (die Zugehörigkeit zum Italienischen wird durch die Notationskonvention -/ricotta angezeigt). Wenn in keiner der beiden romanischen Referenzsprachen eine Variante des Typs existiert, wird auf den Eintrag eines dialektalen Referenzwörterbuchs zurückgegriffen, etwa auf LSI. Für den Fall, dass keine verlässlichen Einträge in Dialektwörterbüchern verfügbar sind, schlägt VerbaAlpina einen Basistyp mitsamt grafischer Repräsentation ('VA') vor.

Im Gesamtkonzept und der technischen Umsetzung vorgesehen, jedoch peripher und demnach nicht konsequent umgesetzt, ist die phonetische Typisierung des Sprachmaterials. Die entsprechende Kategorie ist vor allem deswegen unentbehrlich, weil Sprachatlanten bisweilen (z. B. SDS und VALTS) und Wörterbücher ausschließlich phonetische Typen dokumentieren. Bei der phonetischen Typisierung durch VerbaAlpina werden die Tokens nach Kriterien der historischen Phonetik in phonetische Typen eingeteilt (Datenbankfeld 'phon_typ'). Dazu ein charakteristisches Beispiel (aus AIS 1204 LA PANNA | RAHM | CRÈME):




Nach Maßgabe der Phonetik ist es sinnvoll, die Anlautvarianten [kr-] und [gr-] sowie die Tonvokalvarianten [a], [e] und [o] vor [m] zu differenzieren. Sie erscheinen daher als unterschiedliche 'phonetische Typen'. Gleichzeitig ist es klar, dass es sich um lautliche Varianten ein und desselben morpho-lexikalischen Typs handelt, denn es gibt zahlreiche analoge Fälle von Lautwandel. Da sich jedoch keinerlei Evidenz für einen Wandl von [kr-] > [br-] findet, wäre es nicht sinnvoll die entsprechenden dolomitenladinischen Formen (brama) ebenfalls dazu zu stellen. Sie repräsentieren daher trotz der Ähnlichkeiten im Tonvokal und im Silbenauslaut [-ama] einen anderen morpho-lexikalischen Typ.


Eine Automatisierung der phonetischen Typisierung auf Basis von Levenshtein- und soundex-Algorithmen wird untersucht und wenn möglich umgesetzt werden; allerdings wird in jedem Fall ein starker Korrekturaufwand entstehen. Etwa die beiden historisch zusammengehörigen Formen krama und gromma unterscheiden sich rein numerisch im Sinn der Levenshtein-Distanz durch Menge an Zeichenersetzungen die durchgeführt werden müssen, um eine Form in die andere zu transformieren, stärker als die nicht zusammengehörigen Formen krama und brama.



Durch die Typisierung (Klassenbildung) wird die Datenvielfalt zunehmend übersichtlich; es gilt also in der Regel: Zahl der Tokens > Zahl der phonetischen Typen > Zahl der morpho-lexikalischen Typen > Basistyp. Man beachte jedoch den Extremfall eines einzigen Belegs (Hapax), der einem Token, einem phonetischem Typ und einem morpho-lexikalischen Typ als einzigem Vertreter eines Basistyps entspricht. U.U. ist es sinnvoll, solche Hapax-Formen in der Darstellung herauszufiltern.

(auct. Thomas Krefeld | Stephan Lücke)

Tags: Dokumentation