Methodologie

Bislang existiert für die in der Methodologie publizierten Beiträge noch keine Volltextsuche. Eine solche befindet sich in Planung und Entwicklung und wird in einer der nächsten VerbaAlpina-Versionen zur Verfügung stehen. Bis dahin kann behelfsmäßig, nach Aufruf von "Alle Einträge anzeigen", die Volltextsuche der Browser (meist Strg+F) verwendet werden.
Sortierung

Alle Einträge anzeigen

A   B   C   D   E   F   G   H  I   J  K   L   M   N   O   P   Q   R   S   T   U   V   W   X  Y  Z  


Chronoreferenzierung

Neben dem für VerbaAlpina grundlegenden Prinzip der Georeferenzierung ist im Gesamtkonzept, gleichsam als zusätzliche Dimension, die Möglichkeit der Chronoreferenzierung vorgesehen, die auch diachron angelegte Datenanalysen ermöglicht. Eine Chronoreferenzierung ist sowohl für das von VA gesammelte Sprachmaterial wie auch für das Material des außersprachlichen Datensektors möglich. Die Präzision der Chronoreferenzierung ist unterschiedlich. Im Fall der Sprachdaten aus Atlanten und Wörterbüchern liegt eine implizite Chronoreferenzierung über das Datum der Erhebung bzw. der Publikation vor. Daten aus dem Crowdsourcing können unter Umständen sogar auf den Tag genau zeitlich fixiert werden. Die Chronoreferenzierung ist z. B. dort relevant, wo Daten aus unterschiedlichen Atlasgenerationen, also etwa sowohl aus dem AIS (1928-1940) als auch aus dem ALD (1998-2012), vorliegen. Die Chronoreferenzierung ist noch nicht als Suchfilter an der Nutzeroberfläche implementiert. Die Chronoreferenzierung orientiert sich nach Möglichkeit an bestehenden Standards wie z. B. ISO 8601 oder TimeML und wird in VA_DB als eigenes Datenattribut mitgeführt.

Ein besonderes Beispiel liefert der ASLEF, bei welchem die Chronoreferenzierung besonders deutlich zum Ausdruck kommt, da neben den selbsterhobenen Daten für dieselben Ortschaften auch Belege der Sprachatlanten ALI und AIS aufgenommen wurden. In diesem Sinne entsteht eine diachrone Perspektive, da die vom AIS erhobenen Sprachdaten aus den Jahren 1921-1922 und die Daten des ALI aus den Jahren 1925-1943 neben die Daten vom ASLEF selbst aus den Jahren 1974 bis 1986 gestellt werden. Auf den Karten vom ASLEF wird dies durch diverse Symbole zu Kenntnis gebracht:





Das „P“ bezieht sich dabei auf die vom ALI erhobenen Daten, während das „S“ symbolisch für die vermerkten Daten des AIS steht. Diese beiden Buchstaben referieren auf die Exploratoren der Sprachatlanten. So steht "P" für Ugo Pellis, den Explorator des Sprachatlanten ALI. "S" bezieht sich hingegen auf den Explorator vom AIS, Paul Scheuermeier.
Diese Buchstaben sind auf den ASLEF-Karten vermerkt, wenn keine eigenen Belege vorliegen. Es wird also darauf hingewiesen, dass an diesen Ortschaften die Belege nur vom AIS bzw. ALI übernommen wurden. Wurden jedoch zusätzlich auch vom ASLEF Daten erhoben, die zudem mit denen der anderen beiden Sprachatlanten übereinstimmen, stehen die Buchstaben dem jeweiligen Sprachatlas entsprechend in einem Rechteck (AIS) bzw. in einem Kreis (ALI) hinter den auf den Karten des ASLEF verzeichneten Belegen. Bei denjenigen Belegen, bei welchen vom ASLEF divergierende Daten gegenüber den Daten eines der anderen beiden Sprachatlanten erhoben worden sind, wird dies durch ein Rechteck ohne "S" (AIS) bzw. einen Kreis ohne "P" (ALI), die bei den vom ASLEF erhobenen Belegen stehen, vermerkt.

Eine Berücksichtigung dieser Abkürzungen ist bei der Transkription für VerbaAlpina allerdings nicht vonnöten, da die damit verbundene Chronoreferenzierung, automatisch in den digitalen Karten von VerbaAlpina zu tragen kommt, wenn Belege aller Sprachatlanten eingespeist werden und alle Belege ein- und derselben Ortschaft einen Hinweis auf ihre Quelle geben. Dadurch entsteht eine diachrone Perspektive, die in bestimmten Fällen den Vergleich von diversen Belegen aus den jeweils unterschiedlichen Erhebungsjahren der Sprachatlanten zulässt. Folglich kann hier von einer Chronoreferenzierung, die in den Karten von VerbaAlpina zum Vorschein kommt, gesprochen werden.

(auct. Katharina Knapp | Thomas Krefeld | Stephan Lücke)

Tags: Webseite



Codepage

VerbaAlpina vereinigt Daten aus verschiedenen Arten von Quellen: Daten aus gedruckten Sprachatlanten und Wörterbüchern, die zunächst noch digitalisiert werden müssen, sowie bereits elektronisch vorliegende Daten aus einer Reihe von Partnerprojekten. Jede dieser unterschiedlichen Quellen verwendet mehr oder weniger individuelle Systeme zur Transkription. Um die erforderliche Vereinheitlichung zu realisieren, sind Listen nötig, in denen festgelegt ist, welches Schriftzeichen im Transkriptionssystem der einen Quelle welche Entsprechung im Transkriptionssystem der anderen Quelle besitzt. Hauptsächlich geht es darum, die unterschiedlichen Transkriptionssysteme auf das Internationale Phonetische Alphabet (IPA) abzubilden, das innerhalb von VerbaAlpina als Referenztranskription fungiert. Zur Überführung eines quellenspezifischen Transkriptionssystems in das IPA-System ist die Anlage einer vollständigen Liste in Tabellengestalt mit Schriftzeichenentsprechungen erforderlich. Eine solche Tabelle wird als "Codepage" bezeichnet.
Nachfolgend ein Auszug aus der für die Konvertierung des AIS-Transkriptionssystems in IPA grundlegenden Codepage. Insgesamt umfasst diese Codepage rund 4500 Zeilen/Zuordnungen:


Die Kolumne `BETA` enthält die im AIS verwendeten Zeichen in nach dem Prinzip des Betacodes transkribierter Form, die Kolumne `IPA` das jeweils entsprechende IPA-Zeichen und die Kolumne `HEX` den oder die Zahlenwerte der Unicodetabelle, die dem jeweiligen IPA-Zeichen entsprechen.

Eine vollständige Übersicht über die Codepages für alle Quellen von VerbaAlpina findet sich hier.

(auct. Stephan Lücke)

Tags: Linguistik Informationstechnologie



Crowdsourcing

Obwohl bereits viele relevante Sprachdaten zu den Gegenstandsbereichen von VerbaAlpina vorliegen (vor allem in Atlanten und Wörterbüchern), ist es vorgesehen, neue Daten zu erheben. Damit sollen (1) Inkonsistenzen zwischen den bereits vorliegenden Quellen ausgeglichen, (2) Lücken bzw. Ungenauigkeiten beseitigt und (3) überkommene Bezeichnungen bzw. Geräte als solche gekennzeichnet werden. Die Neuerhebungen werden aber nicht mit den klassischen Verfahren der Feldforschung durchgeführt, sondern mit den Mitteln, die uns die sozialen Medien inzwischen zur Verfügung stellen. Entsprechende Verfahren werden oft unter dem Ausdruck crowdsourcing zusammengefasst.
„Crowdsourcing ist eine interaktive Form der Leistungserbringung, die kollaborativ oder wettbewerbsorientiert organisiert ist und eine große Anzahl extrinsisch oder intrinsisch motivierter Akteure unterschiedlichen Wissensstands unter Verwendung moderner IuK-Systeme auf Basis des Web 2.0 einbezieht." (Martin/Lessmann/Voß 2008).
Die Referenz auf die crowd ist in mancher Hinsicht missverständlich, nicht zuletzt deshalb, weil damit für viele Beliebigkeit, Laienhaftigkeit und mangelnder Verlässlichkeit assoziiert sind; die Bedenken sind insofern nicht ganz ungerechtfertigt, als sich entsprechende Verfahren in der Tat an eine unbestimmte und anonyme Menge potentieller Interessenten wenden. Grundsätzliche Probleme ergeben sich sowohl auf der Seite des wissenschaftlichen Projektanbieters wie auf der Seite des Projektadressaten (der ein Laie sein kann, aber nicht sein muss): Das Angebot muss hinreichend 'sichtbar' und attraktiv sein und der Adressat muss hinreichend sprach- und sachkompetent sein. Es gibt unterschiedliche Strategien, damit umzugehen. So kann man versuchen, die Attraktivität des Angebots in seiner Unterhaltsamkeit zu verankern und spielartige Oberflächen entwerfen, wie es etwa im Projektverbund play4science versucht wurde; nach den dort gemachten Erfahrungen erscheint es jedoch aussichtsreicher, den Informanten, d.h. hier den Sprechern, zu vermitteln, dass sie der Forschung ganz direkt mit ihrem persönlichen Sprach- und Sachwissen weiterhelfen (vgl. die Liste der citizen science-Projekte). Die Kompetenz lässt sich über gezielte Wissensabfragen einschätzen, aber es ist zweifellos verlässlicher, sich die gelieferten Daten durch andere Sprecher desselben Orte bestätigen und validieren zu lassen. Ein erfolgreiches Pilotprojekt zum geolinguistischen Einsatz von crowdsourcing ist der Atlas zur deutschen Alltagssprache (AdA) von Stephan Elspaß und Robert Möller; er markiert einen Meilenstein auf dem Weg in die digitale Geolinguistik.

In VerbaAlpina geht es konkret darum, Daten aus gedruckten Quellen wie vor allem Sprachatlanten und Wörterbüchern zu transkribieren und strukturiert in einer Datenbank zu erfassen, vorhandene Transkriptionen auf Korrektheit zu überprüfen oder auch bereits transkribiertes Material zu typisieren und lexikalischen Lemmata zuzuordnen. Willkommen sind auch Kommentare, z. B. zu Herkunft und Verbreitung von Wörtern bzw. Worttypen. Sehr interessiert ist VerbaAlpina darüber hinaus an aktuellem Sprachmaterial, das nicht in publizierten Quellen wie den genannten Sprachatlanten und Wörterbüchern dokumentiert ist. Wer immer also Kenntnisse eines im Alpenraum gesprochenen Dialekts hat, ist eingeladen, spezielle Ausdrücke dieses Dialekts in den Datenbestand von VerbaAlpina einzutragen. Auf diese Weise wird es möglich, den in den gedruckten Quellen überlieferten Datenbestand zunächst anzureichern und in der Folge z. B. dynamische Prozesse des Sprachwandels zu erkennen und zu beobachten. Das funktioniert umso besser, je mehr Personen sich am Projekt in dieser Weise beteiligen. – Außerdem sind Bilder von alpentypischen Objekten, aber auch von Almen, Hütten, Flora, Fauna, Bergen und Landschaftsformen mitsamt ihren Bezeichnungen willkommen. Sie können in der Mediathek gespeichert werden.

Parallel zur gezielten Mitarbeit bei VerbaAlpina erhält jeder Nutzer die Möglichkeit, sich in unserem System eine eigene Forschungsumgebung einzurichten, die für die Sammlung von hauptsächlich Sprachdaten, jedoch durchaus auch von anderen Daten verwendet werden kann. Voraussetzung ist lediglich, dass diese georeferenziebar sind. Er hat die Möglichkeit, diese Daten gleichsam ausschließlich für die persönliche Verwendung unter Verschluss zu halten oder aber den Zugriff anderen Nutzern freizugeben, um sie zur Diskussion zu stellen und kommentieren zu lassen. Nur wenn möglichst viel Daten der Allgemeinheit zur Verfügung gestellt werden, kann sich das Potenzial der datenbank- und netzwerkgestützten Technologien voll entfalten.

VerbaAlpina dokumentiert die Vitalität des Crowdsourcing-Tools auf einer speziellen Übersichtsseite. Die Erfahrungen des nunmehr seit über zwei Jahren währenden Einsatzes des Crowdsourcing-Tools von VerbaAlpina haben gezeigt, dass der erfolgreiche Einsatz eines solchen Werkzeugs generell und ganz entscheidend von flankierenden Publicity-Maßnahmen abhängt. Die Aktivitäten der Crowd steigen jedesmal an, wenn das VA-Crowdsourcing in der Öffentlichkeit thematisiert worden ist.

Neben dem in der WordPress-Umgebung von VerbaAlpina entwickelten Crowdsourcing-Modul nutzt VerbaAlpina auch die Plattform von Zooniverse, einem sog. Citizen Science Portal, zur Einbindung von Freiwilligen im Internet, die für VerbaAlpina bestimmte Aufgaben erledigen sollen. Das von VerbaAlpina entwickelte Zooniverse-Tool ist unter der Adresse https://www.zooniverse.org/projects/filip-hr/verbaalpina/classify erreichbar. Die ursprüngliche Idee war gewesen, den von Zooniverse kostenfrei zur Verfügung gestellten Software-"Baukasten" zur Entwicklung eines Crowdsourcing-Tools zu nutzen und sich auf diese Weise eine arbeits- und zeitintensive Eigenentwicklung zu sparen. Eine zusätzliche Motivation bestand in der Hoffnung, von der bestehenden großen Freiwilligen-Community von Zooniverse profitieren zu können, um an möglichst zahlreiche "Crowder" heranzukommen und so einen quantitativ großen Effekt zu erzielen.

Zunächst war geplant gewesen, die Crowder Transkriptionen von Eintragungen auf Karten in Sprachatlanten, in einer ersten Phase des AIS, anfertigen zu lassen. Im Lauf der Entwicklungsarbeit, die überwiegend von Filip Hristov geleistet wurde, hat sich jedoch herausgestellt, dass die anfänglichen Erwartungen an Zooniverse in mehrfacher Hinsicht nicht erfüllt wurden. So gestaltete sich allein schon die Nutzung des Zooniverse-Software-Baukastens als deutlich komplizierter, als dies erwartet worden war. Hinzu kam das Mitspracherecht von Zooniverse-Moderatoren, die mehrfach auf Änderungen von Konzept und Realisierung drängten, bevor das Tool schließlich, am 31.03.2021, als offizielles Zooniverse-Projekt an den Start gehen konnte.

Bereits in der Entwicklungsphase kamen Bedenken auf, ob die im Detail doch recht komplizierte Transkription der Eintragungen speziell des AIS von Laien würden geleistet werden können. Dies führte zu dem Entschluss, die Aufgabe der "Crowder" zu modifizieren. Die Transkription der Atlasdaten wurde zu einer optionalen Leistung herabgestuft. Im Vordergrund stand dagegen schließlich die manuell leichte Zuordnung der schriftlich auf den Atlaskarten eingetragenen Sprachbelege zu den, ebenfalls auf der Karte eingetragenen Nummern der Erhebungspunkte, die jeweils für den Informanten stehen, von dem die entsprechende Äußerung stammt. Die "Crowder" werden aufgefordert, Text auf der online-Karte mit einem Rechteck zu umgeben und dieses Rechteck sodann der richtigen Informantennummer zuzuordnen. Die Koordinaten der Rechtecke werden am Ende in die Datenbank von VerbaAlpina übernommen. Durch sie ist es möglich, die entsprechenden Bildinhalte automatisch aus dem Kartenbild auszuschneiden und anschließend an ein OCR-Programm zu übergeben.




Zooniverse: Crowdsouring-Tool von VerbaAlpina. Die Crowder sollen Eintragungen auf der Atlaskarte mit einem Rechteck umgeben und den Text der korrekten Informantennummer zuweisen.

Das eigentliche Problem beim Einsatz von OCR zum Lesen von Karten aus Sprachatlanten besteht nämlich im Wesentlichen genau in der Zuordnung der Eintragungen zu den Informantennummern auf der Karte, denn das Netz der Nummern ist teils sehr eng, und der Text kann an einer beliebigen, unvorhersehbaren Stelle (rechts, links, oben, unten usw.) neben der Nummer positioniert sein.




Ausschnitt aus der Karte AIS 1218 ("il siero del formaggio; il siero della ricotta")

In der Vergangenheit war bereits im Rahmen einer Masterarbeit am Institut für Informatik der LMU (Betreuer: Prof. Kranzlmüller), u. a. unter Einsatz von KI-Methoden, nach einer Lösung für dieses Problem gesucht worden (Nguyen). Auch wenn dabei durchaus beachtliche Erkenntnisse im Detail gewonnen werden konnten, so ist bei den Bemühungen am Ende kein für den praktischen Einsatz verwendbares Tool herausgekommen.

Für die OCR-Prozedur der eigentlichen Text-Transkription könnte z. B. das Programm Abbyy FineReader eingesetzt werden. An der ITG wurden bereits vor rund zehn Jahren Verfahren mit FineReader erfolgreich getestet, die es erlauben, "exotische" Schriftsysteme in reine ASCII-Zeichenfolgen zu übertragen. Das entsprechende Verfahren ist im Detail dokumentiert bei Lücke/Riepl/Trautmann 2017, S. 125-129.




Dialogfeld des OCR-Programms Abbyy FineReader. Dem griechischen Theta (θ; https://www.fileformat.info/info/unicode/char/03b8/index.htm) wird die HTML-konforme ASCII-Zeichen-Sequenz θ zugewiesen. Das Verfahren ist 1:1 auf beliebige Schriftsysteme wie etwa das im AIS verwendete von Böhmer-Ascoli übertragbar. (Abb.: Lücke/Riepl/Trautmann 2017, S. 126 Abb. 39)




Dialogfeld des OCR-Programms Abbyy FineReader. Übertragung eines griechischen Texts in HTML-Entities (Abb.: Lücke/Riepl/Trautmann 2017, S. 128 Abb. 42)

Der Einsatz des beschriebenen OCR-Verfahrens ist auch mit Problemen behaftet. Dazu zählt neben Textüberlagerungen, wie sie vor allem auf besonders dicht beschriebenen Karten (s. das Beispiel oben) immer wieder auftreten, vor allem die im AIS gepflegte Praxis, sich wiederholende Wortteile durch Tilden (~) oder Bindestriche (-) zu ersetzen. Ein entsprechendes Beispiel ist in obiger Abbildung des Tools zu sehen: Der Plural e(r s?u:/me(z?e( ist als e(r -z?e( wiedergegeben. In solchen Fällen ist eine manuelle Nachbearbeitung erforderlich. Es besteht jedoch die Hoffnung, dass in der Summe durch das automatisierte OCR-Verfahren eine Reduzierung des Arbeitsaufwands für die Anfertigung von Transkriptionen erzielt wird.

Nach dem Start des VerbaAlpina-Zooniverse-Moduls Ende März 2021 hat sich schließlich herausgestellt, dass sich die Freiwilligen im Internet in überraschendem Umfang auch an die Transkription von Atlas-Einträgen gemacht haben – obwohl diese Aufgabe deutlich als optional gekennzeichnet ist. Daraus resultierte eine namhafte Anzahl von Anfragen an VerbaAlpina, die sich auf Probleme bei der Transkription bezogen. Dies erzeugte wiederum einen in diesem Ausmaß nicht erwarteten Arbeitsaufwand auf Projektseite, der schließlich zu einer Neujustierung der Aufgaben für die Crowder zwang. ...




(auct. Thomas Krefeld | Stephan Lücke)

Tags: Funktionsbereiche Informationstechnologie