Datenbank-Dokumentation

Tabelle tokens (↩ zurück zur Übersicht)

Beschreibung
Enthält die tokenisierten Daten aus der Tabelle Aeusserungen. Die Einträge dieser Tabelle (zusammen mit den Daten aus Tokengruppen, mit denen mehrere Tokens zu einer Mehrwortlexie zusammengefasst werden können) bilden somit den Kern der Projektdaten von VerbaAlpina.

Die Felder aus dieser Tabelle stimmen in vielen Fällen mit denen aus der Tabelle Aeusserungen überein und werden bei der Tokenisierung direkt übernommen.

Die Tabelle aeusserungen kann mehrere Belege in einer Zeile enhalten, falls ein Informant mehrere Belege geliefert hat. Diese werden entweder durch ein Semikolon (verschiedene Worttypen) oder ein Komma getrennt. Hier wird dies durch die Verwendung von drei Indexen in den Feldern Ebene_1, Ebene_2 und Ebene_3 abgebildet. Ebene_1 bezieht sich auf Teile der Äußerung, die durch ein Semikolon getrennt wurde, Ebene_2 auf solche, die durch ein Komma getrennt wurden und Ebene_3 auf die eigentliche Tokensierung des Beleges. Die Äußerung "la ṣẹ kū́la, si dé̜sfa; a kulársẹ" wird also beispielsweise auf 8 Tokens mit den folgenden Indexen aufgeteilt:

TokenEbene_1Ebene_2Ebene_3
la111
ṣẹ112
kū́la113
si121
dé̜sfa122
a211
kulársẹ212

Diese Tabelle wird von folgenden Tabellen referenziert:
Spalten
Der Name von Spalten, die Teil des Primärschlüssels sind wird fett dargestellt, die Namen von Fremdschlüsseln unterstrichen. Kursivierte Werte im Feld Datentyp bedeuten, dass der Wert optional (nullable) ist.
SpaltennameDatentypMögliche WerteBeschreibung
id_tokenint(11) unsignedbeliebigEindeutige ID des Tokens. An der Oberfläche werden diese IDs mit dem Präfix "S" (= Single) verwendet (vgl. Identifikatoren).
id_informantint(11) unsignedbeliebigFremdschlüssel, der auf die Tabelle informanten verweist. Informant, von dem dieser Beleg stammt. Direkt aus der Tabelle Aeusserungen übernommen.
id_stimulusint(11) unsignedbeliebigFremdschlüssel, der auf die Tabelle stimuli verweist. Stimulus, durch den dieser Beleg produziert wurde. Direkt aus der Tabelle Aeusserungen übernommen.
tokenvarchar(200)beliebigBasistranskription des Tokens. Je nach Quelle sind unterschiedliche Transkriptionssysteme möglich:

  • Von VerbaAlpina transkribierte Belege sind im Betacode. Die entsprechenden Quellen sind in der Tabelle Bibliographie mit dem Flag VA_Beta markiert.
  • Von VerbaAlpina über das Crowdsourcing-Tool erhoben wurden, entsprechen der Eingabe des Nutzenden.
  • Alle Belege aus anderen Quellen sind in einer quellenspezifischen Transkription (IPA, eigener Betacode, etc.)

Für Belege, die im Quellenmaterial ausschließlich bereits typsiert angegeben werden, ist dieses Feld leer. Die Quellentranskription ist über einen quellenspezifischen phonetischen oder morpho-lexikalischen Typ angegeben, der mit dem Token verknüpft ist.
ipavarchar(200)beliebigIPA-Darstellung des Belegs. Für Quellen, die im VA-eigenen Betacode oder einem anderen systematischen Transkriptionssystem angegeben sind, wird die IPA-Darstellung automatisiert mit Hilfe der Tabelle codepage_ipa generiert. Für Quellenmaterial, das bereits IPA-kodiert war, entspricht dieses Feld dem Eintrag im Feld "token". Für alle weiteren Quellen (besonders Belege aus dem Crowdsourcing-Tool wird aktuell keine eigene IPA-Darstellung angegeben, da diese manuell erstellt werden müsste)
originalvarchar(4000)beliebigDarstellung des Belegs, wie dieser im Quellenmaterial angegeben war. Dieses Feld ist primär für Tokens im Betacode relevant, aber auch für andere Quellen, deren Datenmaterial in einer nicht-menschenlesbaren Form kodiert ist. Die Einträge in diesem Feld werden automatisiert mit Hilfe der Tabelle codepage_original für die dort geführten Quellen erzeugt.
portalsprachevarchar(10)beliebigNur relevant für Belege, die über das Crowdsourcing-Tool eingegeben werden. Gibt die Sprache an, die jeweilige Nutzer im Tool gewählt hat. Diese entspricht nicht der Sprache der Äußerung, sondern nur der der Oberfläche (Bedienelemente, Hinweise, etc.). Direkt aus der Tabelle Aeusserungen übernommen.
id_aeusserungint(11) unsignedbeliebigFremdschlüssel, der auf die Tabelle aeusserungen verweist. Gibt die vollständige Ursprungsäußerung an, aus der dieses Token stammt.
erfasst_vonvarchar(50)beliebigNutzername der Person, die diese Äußerung eingegeben/importiert hat. Direkt aus der Tabelle Aeusserungen übernommen.
erfasst_amtimestampbeliebigZeitpunkt der Erstellung der zugeordneten Äußerung. Direkt aus der Tabelle Aeusserungen übernommen.
versiontinyint(4) unsignedbeliebigAufsteigende Nummer um redundante Mehrfachtranskriptionen zum Auffinden von Fehlern zu ermöglichen. Dies wird aktuell nicht verwendet; das Feld enthält somit immer den Wert 1. Direkt aus der Tabelle Aeusserungen übernommen.
bemerkungtextbeliebigFreitextfeld für Bemerkungen.

Falls die zugrundeliegende Äußerung eine Bemerkung hatte, wird dieses hier dupliziert. Bei Belegen, die im Quellenmaterial ausschließlich vortypisiert angegeben sind, wird hier zusätzlich die Quellentransktiption angegeben (z.B. SDS-Typ "Hütte"), da das Feld Token leer ist. Dies dient nur der Vereinfachung der Projektarbeit, da diese Information grundsätzlich auch durch die Verknüpfung mit einem entsprechenden quellenspezifischen Typ vorhanden ist.

Zusätzlich sind eventuell weitere interne Notizen in diesem Feld möglich.
ebene_1int(3)beliebigIndex auf Ebene 1 (vgl. Tabellenbeschreibung)
ebene_2int(3)beliebigIndex auf Ebene 2 (vgl. Tabellenbeschreibung)
ebene_3int(3)beliebigIndex auf Ebene 3 (vgl. Tabellenbeschreibung)
id_tokengruppeint(10) unsignedbeliebigFremdschlüssel, der auf die Tabelle tokengruppen verweist. Falls dieses Token Teil einer Mehrwortlexie ist, enthält es hier die ID einer entsprechenden Tokengruppe.
trennzeichenvarchar(10)beliebigTrennzeichen durch das dieses Token von nachfolgenden getrennt wird im Betacode. Für Tokens, die nicht Teil einer Mehrwortlexie sind oder die das letzte Token einer solchen sind, ist diese Feld immer NULL. Ansonsten enthält es aktuell entweder ein Leerzeichen oder {␣} (Betacode für einen Bogen, der zwei Tokens verbindet).
trennzeichen_ipavarchar(10)beliebigTrennzeichen durch das dieses Token von nachfolgenden getrennt wird in IPA. Für Tokens, die nicht Teil einer Mehrwortlexie sind oder die das letzte Token einer solchen sind, ist diese Feld immer NULL. Ansonsten enthält es aktuell entweder ein Leerzeichen oder ‿.
trennzeichen_originalvarchar(10)beliebigTrennzeichen durch das dieses Token von nachfolgenden getrennt wird in Originaldarstellung der Quelle. Für Tokens, die nicht Teil einer Mehrwortlexie sind oder die das letzte Token einer solchen sind, ist diese Feld immer NULL. Ansonsten enthält es aktuell entweder ein Leerzeichen oder ‿.
genusenum'','f','m','n','?','n/a'Genus des Tokens (falls anwendbar)
posenum'','v','art','sub','pron','adj','PPP','PPA','adv','num','praep','konj','mod','int'Wortart des Tokens
personenum'','1','2','3','n/a'Grammatikalische Person des Tokens (falls anwendbar)
tempusenum'','pres','impf','pasr','fut','n/a'Tempus des Tokens (falls anwendbar)
modusenum'','ind','cong','cond','imp','inf','n/a'Modus des Tokens (falls anwendbar)
numerusenum'','sg','pl','n/a'Numerus des Tokens (falls anwendbar)
komplementvarchar(20)beliebigAktuell nicht in Verwendung
chronoreferenzchar(9)beliebigAktuell nicht in Verwendung. Für eine zeitliche Angabe der Verwendung vorgesehen.
id_dialektint(10) unsignedbeliebigFremdschlüssel, der auf die Tabelle dialects verweist. Nur relevant für Belege, die über das Crowdsourcing-Tool eingegeben werden. Gibt den im Tool ausgewählten Dialekt an. Da diese Möglichkeit in älteren Versionen des Tools noch nicht gegeben war, gibt es auch Crowdsourcing-Äußerungen, bei denen dieses Feld leer ist. Direkt aus der Tabelle Aeusserungen übernommen.
geaendert_amtimestampbeliebigZeitpunkt der letzten Änderung
Ausschnitt
Id_TokenId_InformantID_StimulusTokenIPAOriginalPortalspracheId_AeusserungErfasst_AmVersionBemerkungEbene_1Ebene_2Ebene_3Id_TokengruppeTrennzeichenTrennzeichen_IPATrennzeichen_OriginalGenusPOSPersonTempusModusNumeruskomplementChronoreferenzId_DialektGeaendert_Am
6098403404119226la6292102020-09-25 16:19:26111237428 f2020-09-25 16:59:15
5480583388118430kaništrā́dα5744982020-09-25 16:01:031spor.1112020-09-25 16:54:17
227736683729mo?lkxe1molkχəmọlkxə591512015-08-27 11:51:001Käsewasser sugg. abgelehnt1112018-06-20 14:08:43
3161021394105346c1a-s1sxaːʃsχāʃs2505662019-05-06 13:58:011m111m2019-07-03 16:36:46
14590316383532inkonegla/in̪ko̞n̪e̞glˈainkoneglá984572016-09-15 12:51:4511112018-06-20 14:08:43
1432201081247kru:/krˈykrǘ894092016-08-15 11:50:35112282612018-06-20 14:08:43
14648716123461s?i@e/lezjˈe̞le̞ṣi̯éle1081832016-10-15 17:13:5611112018-06-20 14:08:43
316631011214laga-/lilagˈaːlilagā́li703972016-03-16 10:03:1611111775 2018-06-20 14:08:43
194144418823516NE5-E,BLE,Gnɛəplək2364042019-04-15 15:59:1511112019-05-13 22:11:42
85723915883657bo(ltbɔltbo̜lt3191282019-11-13 13:00:5711112021-09-06 16:08:24

(Eine oder mehrere Spalten dieser Tabelle werden nicht dargestellt.)