Datenbank-Dokumentation

Tabelle z_ling

Vorbemerkung
Tabellen mit dem Präfix "z_" sind Teil der Datenzugriffsschicht von VerbaAlpina. Sie haben eine persistente Strukur und werden aus den zugrundeliegenden (veränderlichen) Tabellen der Kategorie "Projektdaten" automatisiert befüllt. Im Gegensatz zu den Tabellen mit dem Präfix "vap_" dienen sie hauptsächlich dem maschinellen Zugriff.
Die Inhalte dieser Tabelle werden durch die folgende Prozedur erstellt: zling
Die Daten in dieser Tabelle werden (mindestens) einmal täglich aus den jeweils zugrundeliegenden Primärtabellen neu erstellt.

Beschreibung
Diese Tabelle enthält alle sprachlichen Projektdaten in gebündelter Form. Sie wird aus den entsprechenden Daten-Tabellen automatisch generiert. Dadurch enthält sie nicht normalisierte Daten; hauptsächlich bedeutet das, dass es mehrere Zeilen für den selben Sprachbeleg gibt, wenn er beispielsweise verschiedene Typisierungen hat oder ihm mehrere Konzepte zugeordnet sind. Außerdem sind in einigen Spalten nicht-atomare Werte enthalten (vgl. z.B. Spalte "Type_Reference")

Spalten
Der Name von Spalten, die Teil des Primärschlüssels sind wird fett dargestellt, die Namen von Fremdschlüsseln unterstrichen. Kursivierte Werte im Feld Datentyp bedeuten, dass der Wert optional (nullable) ist.
SpaltennameDatentypMögliche WerteBeschreibung
id_instancebigint(20) unsignedbeliebigEindeutige numerische ID für diesen Beleg. Die Daten zu einem Beleg können aus mehreren Zeilen bestehen, d.h. es kann auch mehrere Einträge mit der selben ID geben.

Da sowohl Daten aus der Tabelle tokens als auch aus der Tabelle tokengruppen enthalten sind (vgl. Mehrwortlexie), werden die jeweiligen IDs aus den Ursprungstabellen zusammengeführt. Tokens behalten ihre ID, die ID einer Tokengruppe wird aus der Summe der maximalen Token-ID und der ID der Tokengruppe berechnet.
instancevarchar(5000)beliebigTextuelle Repräsentation des Belegs. Prinzipiell gibt es drei Möglichkeiten, wie der Beleg kodiert sein kann:
  • Falls eine IPA-Darstellung existiert, wird diese genutzt.
  • Falls nicht wird die Original-Darstellung des Belegs, wie der Beleg in der ursprünglichen Quelle dargestellt wurde, verwendet.
  • Falls diese ebenfalls nicht vorhanden ist, wird der Beleg im Betacode dargestellt. Dies ist nur ein Übergangszustand für neuere Belege, für welche noch keine der beiden obigen Formen erstellt werden konnte.

Falls das Ausgangsmaterial ausschließlich bereits typisierte Belege liefert, ist dieses Feld leer. Der Typ, der aus der Quelle übernommen wurde, ist im Feld "Type" mit ensprechenden Angabe im Feld "Source_Typing" angegeben (Falls es zusätzlich eine Typisierung von VerbaAlpina gibt, enthält mindestens eine Zeile den Quellentyp und eine den VA-Typ).

Für Mehrwortlexien gibt es sowohl einen Eintrag für die gesamte Bezeichung, als auch für die Einzelwörter. Letztere werden durch Angabe der vollständigen Bezeichnung (getrennt durch ###) ergänzt, z.B. kaʒˈiːnɑ###kaʒˈiːnɑ dɑl fˈøːk
instance_encodingenum'1','2','3','4'Gibt an, wie der Beleg codiert ist (vgl. Transkription):
  1. IPA von Quelle geliefert
  2. IPA von VA erzeugt
  3. Originaltranskription der Quelle übernommen (domain specific transcription)
  4. Betacode (temporär)
instance_originalvarchar(5000)beliebigGibt (falls vorhanden) die Originaltranskription der Quelle an. Wenn keine IPA-Darstellung des Belegs vorhanden ist (und eine Originaltranskription existiert), sind die Werte in "Instance" und "Instance_Original" identisch.
id_informantint(10) unsignedbeliebigEindeutige ID für den jeweiligen Informanten (aus der Tabelle informanten).

Die Felder "Id_Stimulus" und "Id_Informant" zusammen bestimmen den Inhalt des Felds "Instance_Source".
instance_sourcevarchar(200)beliebigQuelleninformation des Belegs im folgenden Format:
<Quelle>#<Stimulus- oder Kartennummer>#<Nummer innerhalb der Karte>#<Informantnummer#<Erhebungsort>

z.B. VALTS#IV_101#1#A28#Füssen

Die Ausgangsdaten stammen aus den Tabellen stimuli und informanten
id_stimulusint(10) unsignedbeliebigEindeutige Id für den Stimulus, der für die Erhebung dieses Beleges verwendet wurde (aus der Tabelle stimuli). Der Stimulus entspricht im Prinzip der Frage, die dem jeweiligen Informanten gestellt wurde.

Die Felder "Id_Stimulus" und "Id_Informant" zusammen bestimmen den Inhalt des Felds "Instance_Source".
id_conceptint(11) unsignedbeliebigEindeutige ID für das jeweilige Konzept (aus der Tabelle konzepte).

Im Gegensatz zu den lokalisierten Tabellen mit dem Präfix "vap_" enthält diese Tabelle keine textuelle Repräsentation des Konzepts. Alle vorhanden Konzeptbeschreibungen/-namen in den verschiedenen Portalsprachen sind in der Tabelle z_concepts enthalten.
qidint(10) unsignedbeliebigGibt die ID in der Wikidata-Datenbank (https://www.wikidata.org/) an, die diesem Konzept entspricht (Der Präfix "Q" ist nicht enthalten).
geo_datavarchar(100)beliebigGeoreferenzierung des Belegs im WKT-Format.
alpine_conventiontinyint(1)beliebigGibt an, ob sich der Beleg in der Alpenkonvention befindet (1) oder nicht (0).
id_communityint(10) unsignedbeliebigEindeutige ID für die jeweilige Gemeinde (aus der Tabelle orte).
community_namevarchar(200)beliebigName der Gemeinde. Im Gegensatz zum Feld "Instance_Source" wird hier immer der offizielle Gemeindename angegeben. Der Wert dort entspricht oft dem Gemeindenamen, ist aber quellenabhängig und kann unter Umständen auch einen kleineren Ort innerhalb einer Gemeinde angeben.

Falls es für eine Gemeinde weitere Namen in anderen Sprachen gibt, werden diese getrennt durch ### angegeben, z.B. Bolzano###D:Bozen. Hierbei sind die Sprachen D (Deutsch), I (Italienisch), F (Französisch), S (Slowenisch), R (Rätoromanisch) oder L (Ladinisch) möglich.
community_centervarchar(100)beliebigReferenzpunkt der Gemeinde im WKT-Format. Dies entspricht in den meisten Fällen dem geometrischen Mittelpunkt der Gemeinde. Besonders bei Gemeinden aus mehreren Teilstücken muss das aber nicht der Fall sein.
geonames_idint(10) unsignedbeliebigID der jeweiligen Gemeinde in der Geonames-Datenbank
year_publicationvarchar(50)beliebigJahr, in dem der Beleg publiziert wurde. Mögliche Formate:
  • <Jahreszahl>
  • <Jahreszahl>-<Jahreszahl>
  • <Jahreszahl>, <Jahreszahl>, ...
  • <Jahreszahl>ff.
year_surveybinary(0)beliebigJahr, in dem der Beleg erhoben wurde. (Dieses Feld ist aktuell nur ein Platzhalter und enthält keine Werte)
informant_langchar(9)beliebigSprachfamilie des Informanten (falls bekannt). Kann die Werte "rom" (romanisch), "ger" (germanisch) oder "sla" (slawisch) enthalten. (Die Werte werden langfristig auf die entsprechenden ISO 639-5-Werte "roa", "ger" und "sla" umgestellt)
type_kindvarchar(1)'L','P'Gibt an ob der Wert im Feld "Type" ein morpho-lexikalischer (L) oder phonetischer (P) Typ ist. VerbaAlpina typisiert aktuell nicht phonetisch, d.h. alle mit "P" markierten Typen stammen aus den Originalquellen.
id_typeint(11) unsignedbeliebigEindeutige Nummer für den jeweiligen Typ (Die Nummer ist allerdings nur innerhalb einer "Typgattung" eindeutig, es können durchaus morpho-lexikalische und phonetische Typen mit der selben Nummer vorkommen).
typevarchar(200)beliebigTextuelle Darstellung des Typs.
type_langenum'','sla','roa','gem'Sprachfamilie des Typs laut ISO 639-5. Kann die Werte "roa" (romanisch), "gem" (germanisch) oder "sla" (slawisch) enthalten.

type_referencevarchar(1000)beliebigLemmata aus Referenzwörterbüchern, die dem jeweiligen Typ entsprechen. Die Einträge haben das Format:

<Wörterbuch>|<Stichwort>|<bibliographischer Verweis (z.B. Seitenzahl)>|<Link>

z.B. Idiotikon|Teien|12, 31|https://digital.idiotikon.ch/idtkn/id12.htm#!page/120031/mode/1up
source_typingvarchar(50)beliebigGibt an, woher die Typisisierung stammt. Enthält "VA" oder das Kürzel der jeweiligen Quelle aus der Tabelle bibliographie.
posvarchar(8)"v", "art", "sub", "pron", "adj", "PPP", "PPA", "adv", "num", "praep", "konj", "mod", "int"Wortart des Typs.
affixvarchar(20)beliebigAffix des Typs.
gendervarchar(1)"m", "f", "n"Genus des Typs.
id_base_typeint(10) unsignedbeliebigEindeutige ID für den jeweiligen Basistyp (aus der Tabelle basistypen).
base_typevarchar(200)beliebigTextuelle Darstellung des Basistyps.
base_type_langchar(3)beliebigSprache des Basistyps. Falls vorhanden in ISO 639-3-Codierung. Eine Liste mit allen Sprachabkürzungen befindet sich im Methodologie-Eintrag Abkürzungen.
base_type_unsuretinyint(1)beliebigWird auf 1 gesetzt, wenn die Zuordnung des Basistyps unsicher ist.
base_type_referencevarchar(1000)beliebigLemmata aus etymoglogischen Referenzwörterbüchern, die dem jeweiligen Basistyp entsprechen.

Die Einträge haben das Format:
<Wörterbuch>|<Stichwort>|<bibliographischer Verweis (z.B. Seitenzahl)>|<Link>

z.B. FEW|abbĭbĕrare|24, 23|https://apps.atilf.fr/lecteurFEW/lire/volume/240/page/23
id_etymonint(10) unsignedbeliebigEindeutige ID für das Etymon (wird aktuell nicht verwendet).
etymonvarchar(200)beliebigEtymon des Belegs (wird aktuell nicht verwendet).
etymon_langchar(3)beliebigSprache des Etymons (wird aktuell nicht verwendet).
remarksbinary(0)beliebigBemerkungen (wird aktuell nicht verwendet).
cluster_idint(11)beliebigEindeutige Id für die Georeferenz dieses Informanten. Wird zur Optimierung von Anfragen der interaktiven Karte verwendet.
external_idvarchar(20)beliebigGibt die ID des Belegs in der jeweiligen Ursprungstabelle an. S(ingle) steht für Tokens, G(roup) für Tokengruppen (vgl. Identifikatoren).
numberenum'','sg','pl','sg+pl'Numerus des Belegs.
informant_dialectvarchar(100)beliebigNur relevant für Belege, die von der CROWD erstellt wurden. Gibt eine textuelle Repräsentation des Dialekts an, der im Crowdsorucing Tool ausgewählt wurde.
meaningvarchar(500)beliebigGibt die (einzelsprachige) Bedeutung des Belegs an. Diese wird nur bei Massenimporten verwendet, um eine Bedeutungsangabe anzeigen zu können, solange noch keine Konzeptzuordnung vorhanden ist (vgl. bedeutungen).
type_lidsvarchar(100)beliebigEnthält (falls vorhanden) eine komma-separierte Liste von Lexem-IDs aus Wikidata, die dem entsprechenden morpho-lexikalischem Typ zugeordnet sind (vgl. auch lids).
qid_communityint(10) unsignedbeliebigSpaltenbeschreibung fehlt!
Ausschnitt
Das Beispiel zeigt den Datensatz zum Beleg "T323" (vgl. Identifikatoren), der das Token "kaʒˈiːnɑ" beschreibt, welches im Atlas AIS als Teil von "kaʒˈiːnɑ pɑr kɑʒˈɛ" belegt ist. Der Beleg ist mit einem Konzept, einem morpho-lexikalischen Typ und einem Basistyp (siehe Typisierung) verknüpft. Da der morpho-lexikalische Typ mit drei und der Basistyp mit zwei externen Referenzen verknüpft ist, besteht der Datensatz insgesamt aus sechs Zeilen.
Id_InstanceInstanceInstance_EncodingInstance_OriginalNumberId_InformantInstance_Sourceid_stimulusId_ConceptQIDMeaningGeo_DataAlpine_ConventionId_CommunityCommunity_NameCommunity_CenterGeonames_IdQID_CommunityYear_PublicationYear_SurveyInformant_LangInformant_DialectType_KindId_TypeTypeType_LangType_ReferenceSource_TypingType_LIDsPOSAffixGenderId_Base_TypeBase_TypeBase_Type_LangBase_Type_UnsureBase_Type_ReferenceId_EtymonEtymonEtymon_LangRemarksCluster_Idexternal_id
323kaʒˈiːnɑ###kaʒˈiːnɑ pɑr kɑʒˈɛ2kaží̄nα26AIS#1192#1#45#Soglio111136689POINT(9.538622 46.34241)160173Soglio (Graubünden)POINT(9.535092856337505 46.39291753102101)26585671928-1940romL41cascinaroaTreccani|cascina||http://www.treccani.it/vocabolario/cascina/|0VAsubf18căpsa(m)lat0Georges|capsa, ae|1, 985|http://www.zeno.org/Georges-1913/A/capsa+%5B1%5D?hl=capsa|013199S323
323kaʒˈiːnɑ###kaʒˈiːnɑ pɑr kɑʒˈɛ2kaží̄nα26AIS#1192#1#45#Soglio111136689POINT(9.538622 46.34241)160173Soglio (Graubünden)POINT(9.535092856337505 46.39291753102101)26585671928-1940romL41cascinaroaTreccani|cascina||http://www.treccani.it/vocabolario/cascina/|0VAsubf18căpsa(m)lat0FEW|capsa|2, 310|https://apps.atilf.fr/lecteurFEW/lire/volume/20/page/310|013199S323
323kaʒˈiːnɑ###kaʒˈiːnɑ pɑr kɑʒˈɛ2kaží̄nα26AIS#1192#1#45#Soglio111136689POINT(9.538622 46.34241)160173Soglio (Graubünden)POINT(9.535092856337505 46.39291753102101)26585671928-1940romL41cascinaroaHWdR|caschigna|1, 160|https://www.verba-alpina.gwi.uni-muenchen.de/?attachment_id=3343|0VAsubf18căpsa(m)lat0Georges|capsa, ae|1, 985|http://www.zeno.org/Georges-1913/A/capsa+%5B1%5D?hl=capsa|013199S323
323kaʒˈiːnɑ###kaʒˈiːnɑ pɑr kɑʒˈɛ2kaží̄nα26AIS#1192#1#45#Soglio111136689POINT(9.538622 46.34241)160173Soglio (Graubünden)POINT(9.535092856337505 46.39291753102101)26585671928-1940romL41cascinaroaHWdR|caschigna|1, 160|https://www.verba-alpina.gwi.uni-muenchen.de/?attachment_id=3343|0VAsubf18căpsa(m)lat0FEW|capsa|2, 310|https://apps.atilf.fr/lecteurFEW/lire/volume/20/page/310|013199S323
323kaʒˈiːnɑ###kaʒˈiːnɑ pɑr kɑʒˈɛ2kaží̄nα26AIS#1192#1#45#Soglio111136689POINT(9.538622 46.34241)160173Soglio (Graubünden)POINT(9.535092856337505 46.39291753102101)26585671928-1940romL41cascinaroaTLIO|cascina s.f.||http://tlio.ovi.cnr.it/voci/011330.htm|0VAsubf18căpsa(m)lat0Georges|capsa, ae|1, 985|http://www.zeno.org/Georges-1913/A/capsa+%5B1%5D?hl=capsa|013199S323
323kaʒˈiːnɑ###kaʒˈiːnɑ pɑr kɑʒˈɛ2kaží̄nα26AIS#1192#1#45#Soglio111136689POINT(9.538622 46.34241)160173Soglio (Graubünden)POINT(9.535092856337505 46.39291753102101)26585671928-1940romL41cascinaroaTLIO|cascina s.f.||http://tlio.ovi.cnr.it/voci/011330.htm|0VAsubf18căpsa(m)lat0FEW|capsa|2, 310|https://apps.atilf.fr/lecteurFEW/lire/volume/20/page/310|013199S323